論文の概要: Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability
- arxiv url: http://arxiv.org/abs/2411.19943v3
- Date: Mon, 13 Jan 2025 06:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:44.770598
- Title: Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability
- Title(参考訳): 重要なトークン: トークンレベルのコントラスト推定はLLMの推論能力を高める
- Authors: Zicheng Lin, Tian Liang, Jiahao Xu, Qiuzhi Lin, Xing Wang, Ruilin Luo, Chufan Shi, Siheng Li, Yujiu Yang, Zhaopeng Tu,
- Abstract要約: 臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 53.51560766150442
- License:
- Abstract: Mathematical reasoning tasks pose significant challenges for large language models (LLMs) because they require precise logical deduction and sequence analysis. In this work, we introduce the concept of critical tokens -- elements within reasoning trajectories that significantly influence incorrect outcomes. We present a novel framework for identifying these tokens through rollout sampling and demonstrate their substantial divergence from traditional error tokens. Through extensive experiments on datasets such as GSM8K and MATH500, we show that identifying and replacing critical tokens significantly improves model accuracy. We propose an efficient methodology for pinpointing these tokens in large-scale datasets using contrastive estimation and extend this framework to enhance model training processes with direct preference optimization (DPO). Experimental results on GSM8K and MATH500 benchmarks with the widely used models Llama-3 (8B and 70B) and Deepseek-math (7B) demonstrate the effectiveness of the proposed approach, cDPO. Our results underscore the potential of leveraging critical tokens to reduce errors in reasoning tasks, advancing the development of AI systems capable of robust logical deduction. Our code, annotated datasets, and trained models are available at https://github.com/chenzhiling9954/Critical-Tokens-Matter to support and encourage future research in this promising field.
- Abstract(参考訳): 数学的推論タスクは、論理的推論とシーケンス解析を必要とするため、大きな言語モデル(LLM)に重大な課題をもたらす。
本研究では,誤った結果に大きく影響を及ぼす重要なトークン(推論軌道内の要素)の概念を紹介する。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
GSM8KやMATH500といったデータセットに関する広範な実験を通じて、クリティカルトークンの識別と置換がモデルの精度を大幅に向上させることを示す。
本稿では,これらのトークンをコントラスト推定を用いて大規模データセットにピンポイントする効率的な手法を提案し,このフレームワークを拡張して,直接選好最適化(DPO)によるモデルトレーニングプロセスを強化する。
Llama-3 (8B, 70B) とDeepseek-math (7B) を用いた GSM8K および MATH500 ベンチマーク実験の結果,提案手法の有効性が示された。
この結果から,重要なトークンを活用することにより,推論タスクにおけるエラーを低減し,ロバストな論理推論が可能なAIシステムの開発を推し進める可能性が示唆された。
私たちのコード、注釈付きデータセット、トレーニングされたモデルはhttps://github.com/chenzhiling9954/Critical-Tokens-Matterで利用可能です。
関連論文リスト
- Improving the portability of predicting students performance models by using ontologies [0.0]
教育データマイニングと学習分析の主な課題の1つは、予測モデルの移植性である。
そこで,本研究では,学生がMoodle学習管理システムと相互作用する行動の分類を用いたオントロジーの利用を提案する。
その結果,提案するオントロジーを用いることで,予測精度の観点からモデルのポータビリティが向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-09T18:18:54Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Token-Supervised Value Models for Enhancing Mathematical Reasoning Capabilities of Large Language Models [35.29961848648335]
大規模言語モデル(LLM)は、ステップバイステップの推論チェーンを通じて、数学における顕著な問題解決能力を実証している。
それらは、その後の推論チェーンの品質や、自己回帰的なトークン・バイ・トーケン生成の性質による最終回答に影響を及ぼすエラーの推論に影響を受けやすい。
近年の研究では、推論経路の生成を導くために外部検証器の採用が提案されているが、既存の研究はステップバイステップラベルで訓練されたモデルを利用している。
論文 参考訳(メタデータ) (2024-07-12T13:16:50Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Identifying and Mitigating Spurious Correlations for Improving
Robustness in NLP Models [19.21465581259624]
多くの問題は、刺激的な相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。
本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。
提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。
論文 参考訳(メタデータ) (2021-10-14T21:40:03Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。