論文の概要: Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback
- arxiv url: http://arxiv.org/abs/2501.10799v1
- Date: Sat, 18 Jan 2025 15:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:53.600455
- Title: Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback
- Title(参考訳): Step-KTO: ステップワイドバイナリフィードバックによる数学的推論の最適化
- Authors: Yen-Ting Lin, Di Jin, Tengyu Xu, Tianhao Wu, Sainbayar Sukhbaatar, Chen Zhu, Yun He, Yun-Nung Chen, Jason Weston, Yuandong Tian, Arash Rahnama, Sinong Wang, Hao Ma, Han Fang,
- Abstract要約: Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 94.25162866972077
- License:
- Abstract: Large language models (LLMs) have recently demonstrated remarkable success in mathematical reasoning. Despite progress in methods like chain-of-thought prompting and self-consistency sampling, these advances often focus on final correctness without ensuring that the underlying reasoning process is coherent and reliable. This paper introduces Step-KTO, a training framework that combines process-level and outcome-level binary feedback to guide LLMs toward more trustworthy reasoning trajectories. By providing binary evaluations for both the intermediate reasoning steps and the final answer, Step-KTO encourages the model to adhere to logical progressions rather than relying on superficial shortcuts. Our experiments on challenging mathematical benchmarks show that Step-KTO significantly improves both final answer accuracy and the quality of intermediate reasoning steps. For example, on the MATH-500 dataset, Step-KTO achieves a notable improvement in Pass@1 accuracy over strong baselines. These results highlight the promise of integrating stepwise process feedback into LLM training, paving the way toward more interpretable and dependable reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル (LLM) は近年, 数学的推論において顕著な成功を収めている。
チェーン・オブ・ソート・プロンプトや自己整合性サンプリングのような手法の進歩にもかかわらず、これらの進歩は、根底にある推論プロセスが一貫性と信頼性を保たずに最終的な正しさに焦点をあてることがしばしばある。
本稿では、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークであるStep-KTOを紹介し、LCMをより信頼できる推論軌道へと導く。
中間推論ステップと最終解の両方に対してバイナリ評価を提供することで、ステップ-KTOは、表面的なショートカットに頼るのではなく、論理的な進行に固執することを奨励する。
実験の結果,Step-KTOは最終回答の精度と中間推論の精度の両方を著しく向上させることがわかった。
例えば、MATH-500データセットでは、Step-KTOは強力なベースラインよりもPass@1精度が顕著に向上している。
これらの結果は、段階的なプロセスフィードバックをLCMトレーニングに統合し、より解釈可能で信頼性の高い推論能力への道を開くという約束を強調します。
関連論文リスト
- Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.03531832811386]
BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。
チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。
AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文 参考訳(メタデータ) (2025-01-06T18:59:13Z) - Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning [7.965282234763401]
Step Guidied Reasoningは、数ショット法よりも安定で一般化可能である。
最先端言語モデルにおける数学的性能向上におけるステップガイド推論の意義を実証する。
論文 参考訳(メタデータ) (2024-10-18T01:38:24Z) - Keypoint-based Progressive Chain-of-Thought Distillation for LLMs [46.53906673648466]
思考の連鎖蒸留は、推論能力を大きな言語モデルからより小さな学生モデルに伝達する強力な技術である。
従来の手法では、学生はLLMによって生成されるステップバイステップの合理性を模倣する必要がある。
我々はこれらの問題に対処する統合フレームワークKPODを提案する。
論文 参考訳(メタデータ) (2024-05-25T05:27:38Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。