論文の概要: Learning to Rank Chain-of-Thought: An Energy-Based Approach with Outcome Supervision
- arxiv url: http://arxiv.org/abs/2505.14999v1
- Date: Wed, 21 May 2025 01:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.80289
- Title: Learning to Rank Chain-of-Thought: An Energy-Based Approach with Outcome Supervision
- Title(参考訳): ランク・オブ・ワットの学習:アウトカム・スーパービジョンによるエネルギーベースアプローチ
- Authors: Eric Hanchen Jiang, Haozheng Luo, Shengyuan Pang, Xiaomin Li, Zhenting Qi, Hengli Li, Cheng-Fu Yang, Zongyu Lin, Xinfeng Li, Hao Xu, Kai-Wei Chang, Ying Nian Wu,
- Abstract要約: 本稿では,エネルギ・アウトカム・リワード・モデル(EORM)について紹介する。
数学的ベンチマークでは、EORMは最終回答の精度を大幅に改善する(例えば、Llama 3 8B、GSM8kで90.7%、MATHで63.7%)。
- 参考スコア(独自算出の注目度): 66.79945002145377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical reasoning presents a significant challenge for Large Language Models (LLMs), often requiring robust multi step logical consistency. While Chain of Thought (CoT) prompting elicits reasoning steps, it doesn't guarantee correctness, and improving reliability via extensive sampling is computationally costly. This paper introduces the Energy Outcome Reward Model (EORM), an effective, lightweight, post hoc verifier. EORM leverages Energy Based Models (EBMs) to simplify the training of reward models by learning to assign a scalar energy score to CoT solutions using only outcome labels, thereby avoiding detailed annotations. It achieves this by interpreting discriminator output logits as negative energies, effectively ranking candidates where lower energy is assigned to solutions leading to correct final outcomes implicitly favoring coherent reasoning. On mathematical benchmarks (GSM8k, MATH), EORM significantly improves final answer accuracy (e.g., with Llama 3 8B, achieving 90.7% on GSM8k and 63.7% on MATH). EORM effectively leverages a given pool of candidate solutions to match or exceed the performance of brute force sampling, thereby enhancing LLM reasoning outcome reliability through its streamlined post hoc verification process.
- Abstract(参考訳): 数学的推論は大規模言語モデル(LLM)にとって重要な課題であり、しばしば堅牢な多段階論理的一貫性を必要とする。
Chain of Thought (CoT)は推論ステップを誘発するが、正確性は保証せず、広範囲なサンプリングによる信頼性の向上は計算コストがかかる。
本稿では,エネルギ・アウトカム・リワード・モデル(EORM)について紹介する。
EORMはEnergy Based Models(EBM)を利用して報酬モデルのトレーニングを簡素化し、結果ラベルのみを使用してCoTソリューションにスカラーエネルギスコアを割り当て、詳細なアノテーションを避ける。
これは、判別器出力ロジットを負のエネルギーとして解釈し、解に低いエネルギーが割り当てられた候補を効果的にランク付けすることで、コヒーレント推論を暗黙的に正しい結果をもたらす。
数学ベンチマーク(GSM8k, MATH)では、EORMは最終回答精度を著しく向上させる(例えば、Llama 3 8Bでは、GSM8kでは90.7%、MATHでは63.7%)。
EORMは、与えられた候補解のプールを効果的に利用し、ブルート力サンプリングのパフォーマンスを一致または超過し、その合理化されたポストホック検証プロセスを通じてLSM推論結果の信頼性を向上させる。
関連論文リスト
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Self-Training Elicits Concise Reasoning in Large Language Models [23.475414693530965]
チェーン・オブ・シント(CoT)推論により、中間トークンによるさらなる計算を大規模言語モデル(LLM)が利用できるようになった。
自己生成した簡潔な推論経路を利用する簡単な微調整法を提案する。
提案手法は,GSM8KおよびMATH上の5つのモデルファミリに対して,平均精度を維持しつつ,出力トークンの30%削減を実現する。
論文 参考訳(メタデータ) (2025-02-27T14:14:50Z) - Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving [0.0]
大規模言語モデル(LLM)の最近の進歩は、精度と推論能力の最大化に重点を置いている。
本稿では,2つの対照的なアプローチの統合を解析することにより,推論の強化と計算効率の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-12-20T08:42:45Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。