論文の概要: Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization
- arxiv url: http://arxiv.org/abs/2504.05812v1
- Date: Tue, 08 Apr 2025 08:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:09.768095
- Title: Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization
- Title(参考訳): 正しい質問は、まだ答えの半分だ:完全に教師なしのLDM推論のインセンティブ
- Authors: Qingyang Zhang, Haitao Wu, Changqing Zhang, Peilin Zhao, Yatao Bian,
- Abstract要約: 大規模言語モデル(LLM)は、数学的推論のような挑戦的なタスクにおいて例外的な能力を示した。
推論能力を高める既存の方法は、教師付き微調整(SFT)と、事前学習後の推論固有データに基づく強化学習(RL)に依存している。
本稿では,エントロピー最小化政策最適化(EMPO)を提案する。
- 参考スコア(独自算出の注目度): 47.04132451658664
- License:
- Abstract: While large language models (LLMs) have demonstrated exceptional capabilities in challenging tasks such as mathematical reasoning, existing methods to enhance reasoning ability predominantly rely on supervised fine-tuning (SFT) followed by reinforcement learning (RL) on reasoning-specific data after pre-training. However, these approaches critically depend on external supervisions--such as human labelled reasoning traces, verified golden answers, or pre-trained reward models--which limits scalability and practical applicability. In this work, we propose Entropy Minimized Policy Optimization (EMPO), which makes an early attempt at fully unsupervised LLM reasoning incentivization. EMPO does not require any supervised information for incentivizing reasoning capabilities (i.e., neither verifiable reasoning traces, problems with golden answers, nor additional pre-trained reward models). By continuously minimizing the predictive entropy of LLMs on unlabeled user queries in a latent semantic space, EMPO enables purely self-supervised evolution of reasoning capabilities with strong flexibility and practicality. Our experiments demonstrate competitive performance of EMPO on both mathematical reasoning and free-form commonsense reasoning tasks. Specifically, without any supervised signals, EMPO boosts the accuracy of Qwen2.5-Math-7B Base from 30.7\% to 48.1\% on mathematical benchmarks and improves truthfulness accuracy of Qwen2.5-7B Instruct from 87.16\% to 97.25\% on TruthfulQA.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論のような困難なタスクにおいて、例外的な能力を示したが、既存の推論能力を高める方法は、主に教師付き微調整(SFT)に頼り、後続の強化学習(RL)は、事前学習後の推論固有のデータに頼っている。
しかしながら、これらのアプローチは、人間のラベル付き推論トレース、検証された黄金の回答、あるいは事前訓練された報酬モデルなど、スケーラビリティと実用性を制限する外部の監督に依存する。
本研究では,エントロピー最小化政策最適化(EMPO)を提案する。
EMPOは、推論能力のインセンティブを与えるための教師付き情報を必要としない(すなわち、検証可能な推論の痕跡、黄金の答えを持つ問題、追加の訓練済み報酬モデル)。
潜在意味空間におけるラベル付きユーザクエリ上でのLLMの予測エントロピーを継続的に最小化することにより、EMPOは強力な柔軟性と実用性を備えた推論能力の純粋に自己管理的な進化を可能にする。
本実験は,EMPOの数学的推論と自由形式コモンセンス推論の両課題における競合性能を実証した。
具体的には、教師付き信号がなければ、EMPOは数学ベンチマークでQwen2.5-Math-7Bベースを30.7\%から48.1\%に、Qwen2.5-7Bインストラクトを87.16\%から97.25\%に改善する。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Offline Reinforcement Learning for LLM Multi-Step Reasoning [15.687002884103537]
OREO(Offline Reasoning Optimization)は,多段階推論の強化を目的としたオフライン強化学習手法である。
これにより、ペアワイズデータを収集する必要がなくなり、より優れたクレジット割り当てが可能になる。
マルチステップ推論ベンチマークでは、既存のオフライン学習手法を超越している。
論文 参考訳(メタデータ) (2024-12-20T18:49:45Z) - Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths [12.377041655669728]
自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介する。
我々は,最近提案されたLLMに基づく障害局所化手法であるAutoFLを用いて実験的に評価した。
結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆している。
論文 参考訳(メタデータ) (2024-12-11T10:56:47Z) - Token-Supervised Value Models for Enhancing Mathematical Problem-Solving Capabilities of Large Language Models [56.32800938317095]
既存の検証器はテスト時の木探索技術に準最適である。
トークン制御値モデル(TVM)を提案する。
TVMは各トークンに、正しい最終回答に達する確率を反映した確率を割り当てる。
論文 参考訳(メタデータ) (2024-07-12T13:16:50Z) - ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。
ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。
GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文 参考訳(メタデータ) (2024-01-17T04:43:21Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。