論文の概要: Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability
- arxiv url: http://arxiv.org/abs/2411.19943v2
- Date: Mon, 02 Dec 2024 06:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 13:36:10.846890
- Title: Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability
- Title(参考訳): 重要なトークン: トークンレベルのコントラスト推定はLLMの推論能力を高める
- Authors: Zicheng Lin, Tian Liang, Jiahao Xu, Xing Wang, Ruilin Luo, Chufan Shi, Siheng Li, Yujiu Yang, Zhaopeng Tu,
- Abstract要約: 大規模言語モデル(LLM)は推論タスクにおいて顕著なパフォーマンスを示した。
LLMは、クリティカルトークンの代わりに他のトークンをデコードせざるを得ない場合、肯定的な結果をもたらす傾向がある。
クリティカルトークンに対するトークンレベルの報酬を自動的に認識し,実行するための,新しいアプローチであるcDPOを提案する。
- 参考スコア(独自算出の注目度): 55.29624228206882
- License:
- Abstract: Large Language Models (LLMs) have exhibited remarkable performance on reasoning tasks. They utilize autoregressive token generation to construct reasoning trajectories, enabling the development of a coherent chain of thought. In this work, we explore the impact of individual tokens on the final outcomes of reasoning tasks. We identify the existence of ``critical tokens'' that lead to incorrect reasoning trajectories in LLMs. Specifically, we find that LLMs tend to produce positive outcomes when forced to decode other tokens instead of critical tokens. Motivated by this observation, we propose a novel approach - cDPO - designed to automatically recognize and conduct token-level rewards for the critical tokens during the alignment process. Specifically, we develop a contrastive estimation approach to automatically identify critical tokens. It is achieved by comparing the generation likelihood of positive and negative models. To achieve this, we separately fine-tune the positive and negative models on various reasoning trajectories, consequently, they are capable of identifying identify critical tokens within incorrect trajectories that contribute to erroneous outcomes. Moreover, to further align the model with the critical token information during the alignment process, we extend the conventional DPO algorithms to token-level DPO and utilize the differential likelihood from the aforementioned positive and negative model as important weight for token-level DPO learning.Experimental results on GSM8K and MATH500 benchmarks with two-widely used models Llama-3 (8B and 70B) and deepseek-math (7B) demonstrate the effectiveness of the propsoed approach cDPO.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論タスクにおいて顕著なパフォーマンスを示した。
彼らは自己回帰トークン生成を利用して推論軌道を構築し、コヒーレントな思考連鎖の開発を可能にした。
本研究では,個々のトークンが推論タスクの最終結果に与える影響について検討する。
LLMにおける誤った推論軌道につながる「クリティカルトークン」の存在を同定する。
具体的には、クリティカルトークンの代わりに他のトークンをデコードすることを強制すると、LCMは肯定的な結果をもたらす傾向がある。
本研究の目的は,アライメントプロセス中に重要なトークンに対するトークンレベルの報酬を自動的に認識し,実行するための新しいアプローチであるcDPOを提案することである。
具体的には,重要なトークンを自動的に識別するコントラスト推定手法を開発する。
これは正および負のモデルの生成可能性を比較することで達成される。
これを実現するために, 様々な推論軌道上の正および負のモデルを別々に微調整し, 誤帰に寄与する誤った軌道内の臨界トークンを同定する。
さらに、アライメント過程において、従来のDPOアルゴリズムをトークンレベルDPOに拡張し、上記の正モデルと負モデルとの差乗率をトークンレベルDPO学習の重要な重みとして利用し、GSM8KとMATH500ベンチマークにおいて、Llama-3 (8B, 70B) とディープシークマス (7B) を用いた実験結果により、提案したアプローチcDPOの有効性を実証した。
関連論文リスト
- Improving the portability of predicting students performance models by using ontologies [0.0]
教育データマイニングと学習分析の主な課題の1つは、予測モデルの移植性である。
そこで,本研究では,学生がMoodle学習管理システムと相互作用する行動の分類を用いたオントロジーの利用を提案する。
その結果,提案するオントロジーを用いることで,予測精度の観点からモデルのポータビリティが向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-09T18:18:54Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Token-Supervised Value Models for Enhancing Mathematical Reasoning Capabilities of Large Language Models [35.29961848648335]
大規模言語モデル(LLM)は、ステップバイステップの推論チェーンを通じて、数学における顕著な問題解決能力を実証している。
それらは、その後の推論チェーンの品質や、自己回帰的なトークン・バイ・トーケン生成の性質による最終回答に影響を及ぼすエラーの推論に影響を受けやすい。
近年の研究では、推論経路の生成を導くために外部検証器の採用が提案されているが、既存の研究はステップバイステップラベルで訓練されたモデルを利用している。
論文 参考訳(メタデータ) (2024-07-12T13:16:50Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Identifying and Mitigating Spurious Correlations for Improving
Robustness in NLP Models [19.21465581259624]
多くの問題は、刺激的な相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。
本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。
提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。
論文 参考訳(メタデータ) (2021-10-14T21:40:03Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。