論文の概要: Learning to Rank Chain-of-Thought: An Energy-Based Approach with Outcome Supervision
- arxiv url: http://arxiv.org/abs/2505.14999v2
- Date: Sat, 14 Jun 2025 07:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:31.098228
- Title: Learning to Rank Chain-of-Thought: An Energy-Based Approach with Outcome Supervision
- Title(参考訳): ランク・オブ・ワットの学習:アウトカム・スーパービジョンによるエネルギーベースアプローチ
- Authors: Eric Hanchen Jiang, Haozheng Luo, Shengyuan Pang, Xiaomin Li, Zhenting Qi, Hengli Li, Cheng-Fu Yang, Zongyu Lin, Xinfeng Li, Hao Xu, Kai-Wei Chang, Ying Nian Wu,
- Abstract要約: 本稿では,エネルギ・アウトカム・リワード・モデル(EORM)について紹介する。
数学的ベンチマークでは、EORMは最終回答の精度を大幅に改善する(例えば、Llama 3 8B、GSM8kで90.7%、MATHで63.7%)。
- 参考スコア(独自算出の注目度): 66.79945002145377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical reasoning presents a significant challenge for Large Language Models (LLMs), often requiring robust multi step logical consistency. While Chain of Thought (CoT) prompting elicits reasoning steps, it doesn't guarantee correctness, and improving reliability via extensive sampling is computationally costly. This paper introduces the Energy Outcome Reward Model (EORM), an effective, lightweight, post hoc verifier. EORM leverages Energy Based Models (EBMs) to simplify the training of reward models by learning to assign a scalar energy score to CoT solutions using only outcome labels, thereby avoiding detailed annotations. It achieves this by interpreting discriminator output logits as negative energies, effectively ranking candidates where lower energy is assigned to solutions leading to correct final outcomes implicitly favoring coherent reasoning. On mathematical benchmarks (GSM8k, MATH), EORM significantly improves final answer accuracy (e.g., with Llama 3 8B, achieving 90.7% on GSM8k and 63.7% on MATH). EORM effectively leverages a given pool of candidate solutions to match or exceed the performance of brute force sampling, thereby enhancing LLM reasoning outcome reliability through its streamlined post hoc verification process.
- Abstract(参考訳): 数学的推論は大規模言語モデル(LLM)にとって重要な課題であり、しばしば堅牢な多段階論理的一貫性を必要とする。
Chain of Thought (CoT)は推論ステップを誘発するが、正確性は保証せず、広範囲なサンプリングによる信頼性の向上は計算コストがかかる。
本稿では,エネルギ・アウトカム・リワード・モデル(EORM)について紹介する。
EORMはEnergy Based Models(EBM)を利用して報酬モデルのトレーニングを簡素化し、結果ラベルのみを使用してCoTソリューションにスカラーエネルギスコアを割り当て、詳細なアノテーションを避ける。
これは、判別器出力ロジットを負のエネルギーとして解釈し、解に低いエネルギーが割り当てられた候補を効果的にランク付けすることで、コヒーレント推論を暗黙的に正しい結果をもたらす。
数学ベンチマーク(GSM8k, MATH)では、EORMは最終回答精度を著しく向上させる(例えば、Llama 3 8Bでは、GSM8kでは90.7%、MATHでは63.7%)。
EORMは、与えられた候補解のプールを効果的に利用し、ブルート力サンプリングのパフォーマンスを一致または超過し、その合理化されたポストホック検証プロセスを通じてLSM推論結果の信頼性を向上させる。
関連論文リスト
- AutoBool: An Reinforcement-Learning trained LLM for Effective Automated Boolean Query Generation for Systematic Reviews [42.03242247233896]
AutoBoolは,大規模言語モデル(LLM)をトレーニングして,効果的なBooleanクエリを生成するフレームワークである。
トレーニング用のトピックとして65588という,その種類で最も大きなデータセットをリリースしています。
実験の結果、AutoBoolはゼロショット/フェーショットのプロンプトを著しく上回り、GPTベースのモデルよりもはるかに大きなモデルの有効性を達成または上回っていることがわかった。
論文 参考訳(メタデータ) (2025-11-21T04:29:47Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers [24.934432751910443]
本研究は,代用信号として形式と長さを応用し,数学的問題解決のためにLLMを訓練するものである。
本研究は,形式的正当性のみに着目した報奨関数が,初期の標準GRPOアルゴリズムに匹敵する性能向上をもたらすことを示す。
その結果、フォーマット長のサロゲート信号を利用するGRPOアプローチは、マッチするだけでなく、標準のGRPOアルゴリズムの性能を上回る。
論文 参考訳(メタデータ) (2025-05-26T02:56:22Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Self-Training Elicits Concise Reasoning in Large Language Models [23.475414693530965]
チェーン・オブ・シント(CoT)推論により、中間トークンによるさらなる計算を大規模言語モデル(LLM)が利用できるようになった。
自己生成した簡潔な推論経路を利用する簡単な微調整法を提案する。
提案手法は,GSM8KおよびMATH上の5つのモデルファミリに対して,平均精度を維持しつつ,出力トークンの30%削減を実現する。
論文 参考訳(メタデータ) (2025-02-27T14:14:50Z) - Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving [0.0]
大規模言語モデル(LLM)の最近の進歩は、精度と推論能力の最大化に重点を置いている。
本稿では,2つの対照的なアプローチの統合を解析することにより,推論の強化と計算効率の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-12-20T08:42:45Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。