論文の概要: Learning to Rank Chain-of-Thought: Using a Small Model
- arxiv url: http://arxiv.org/abs/2505.14999v3
- Date: Tue, 30 Sep 2025 18:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 17:16:29.694336
- Title: Learning to Rank Chain-of-Thought: Using a Small Model
- Title(参考訳): 思考の連鎖のランク付けを学習する:小さなモデルを用いて
- Authors: Eric Hanchen Jiang, Haozheng Luo, Shengyuan Pang, Xiaomin Li, Zhenting Qi, Hengli Li, Cheng-Fu Yang, Zongyu Lin, Xinfeng Li, Hao Xu, Kai-Wei Chang, Ying Nian Wu,
- Abstract要約: 本稿では、この課題に対処するために設計された高効率で軽量な検証器であるEORM(Energy Outcome Reward Model)を紹介する。
EORMはエネルギーベースのフレームワークを使用してChain-of-Thought(CoT)ソリューションをランク付けし、単純な結果ラベルだけで誤った推論と正しく区別することを学ぶ。
55Mのパラメータだけで、通常の報酬モデルより127倍以上小さいEORMは、Llama 3 8Bの精度をGSM8kで90.7%、MATHで63.7%に向上させた。
- 参考スコア(独自算出の注目度): 77.75522308463667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) struggle with reliable mathematical reasoning, and current verification methods are often computationally expensive. This paper introduces the Energy Outcome Reward Model (EORM), a highly efficient, lightweight post-hoc verifier designed to address this challenge. EORM uses an energy-based framework to rank Chain-of-Thought (CoT) solutions, learning to distinguish correct from incorrect reasoning using only simple outcome labels, thus eliminating the need for expensive annotations. With only 55M parameters, over 127 times smaller than typical reward models, EORM boosts the accuracy of Llama 3 8B to 90.7\% on GSM8k and 63.7\% on MATH. This performance is achieved by efficiently selecting the optimal reasoning path from a pool of candidates, allowing it to match or exceed the accuracy of far more resource-intensive Best-of-N sampling techniques. Crucially, our experiments show that EORM generalizes effectively to out-of-distribution problems and unseen models, indicating it learns fundamental principles of valid reasoning. This robustness, combined with its efficiency, establishes EORM as a practical tool for deploying more dependable LLMs in complex, real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は信頼性のある数学的推論に苦慮し、現在の検証手法はしばしば計算コストがかかる。
本稿では,高効率で軽量なポストホック検証器であるEORM(Energy Outcome Reward Model)を紹介する。
EORMはエネルギーベースのフレームワークを使用して、Chain-of-Thought(CoT)ソリューションをランク付けし、単純な結果ラベルだけで誤った推論と正しく区別することを学ぶ。
55Mパラメータだけで、通常の報酬モデルより127倍以上小さいEORMは、GSM8kではLlama 3 8B の精度を 90.7 %、MATHでは 63.7 % に向上させる。
この性能は、候補のプールから最適な推論経路を効率よく選択し、よりリソース集約的なBest-of-Nサンプリング手法の精度をはるかに上回るようにすることで達成される。
重要なことに、我々の実験は、EORMが配布外問題や目に見えないモデルに効果的に一般化し、有効な推論の基本的な原則を学習していることを示している。
この堅牢性と効率性が組み合わさって、EORMはより信頼性の高いLLMを複雑な現実世界のアプリケーションにデプロイするための実用的なツールとして確立しています。
関連論文リスト
- Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Self-Training Elicits Concise Reasoning in Large Language Models [23.475414693530965]
チェーン・オブ・シント(CoT)推論により、中間トークンによるさらなる計算を大規模言語モデル(LLM)が利用できるようになった。
自己生成した簡潔な推論経路を利用する簡単な微調整法を提案する。
提案手法は,GSM8KおよびMATH上の5つのモデルファミリに対して,平均精度を維持しつつ,出力トークンの30%削減を実現する。
論文 参考訳(メタデータ) (2025-02-27T14:14:50Z) - Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving [0.0]
大規模言語モデル(LLM)の最近の進歩は、精度と推論能力の最大化に重点を置いている。
本稿では,2つの対照的なアプローチの統合を解析することにより,推論の強化と計算効率の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-12-20T08:42:45Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。