Fugu-MT 論文翻訳(概要): Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization

論文の概要: Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization

arxiv url: http://arxiv.org/abs/2504.05812v1
Date: Tue, 08 Apr 2025 08:48:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-16 23:16:32.695872
Title: Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization
Title（参考訳）: 正しい質問は、まだ答えの半分だ:完全に教師なしのLDM推論のインセンティブ
Authors: Qingyang Zhang, Haitao Wu, Changqing Zhang, Peilin Zhao, Yatao Bian,
Abstract要約: 大規模言語モデル(LLM)は、数学的推論のような挑戦的なタスクにおいて例外的な能力を示した。推論能力を高める既存の方法は、教師付き微調整(SFT)と、事前学習後の推論固有データに基づく強化学習(RL)に依存している。本稿では,エントロピー最小化政策最適化(EMPO)を提案する。
参考スコア（独自算出の注目度）: 47.04132451658664
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While large language models (LLMs) have demonstrated exceptional capabilities in challenging tasks such as mathematical reasoning, existing methods to enhance reasoning ability predominantly rely on supervised fine-tuning (SFT) followed by reinforcement learning (RL) on reasoning-specific data after pre-training. However, these approaches critically depend on external supervisions--such as human labelled reasoning traces, verified golden answers, or pre-trained reward models--which limits scalability and practical applicability. In this work, we propose Entropy Minimized Policy Optimization (EMPO), which makes an early attempt at fully unsupervised LLM reasoning incentivization. EMPO does not require any supervised information for incentivizing reasoning capabilities (i.e., neither verifiable reasoning traces, problems with golden answers, nor additional pre-trained reward models). By continuously minimizing the predictive entropy of LLMs on unlabeled user queries in a latent semantic space, EMPO enables purely self-supervised evolution of reasoning capabilities with strong flexibility and practicality. Our experiments demonstrate competitive performance of EMPO on both mathematical reasoning and free-form commonsense reasoning tasks. Specifically, without any supervised signals, EMPO boosts the accuracy of Qwen2.5-Math-7B Base from 30.7\% to 48.1\% on mathematical benchmarks and improves truthfulness accuracy of Qwen2.5-7B Instruct from 87.16\% to 97.25\% on TruthfulQA.
Abstract（参考訳）: 大規模言語モデル(LLM)は、数学的推論のような困難なタスクにおいて、例外的な能力を示したが、既存の推論能力を高める方法は、主に教師付き微調整(SFT)に頼り、後続の強化学習(RL)は、事前学習後の推論固有のデータに頼っている。しかしながら、これらのアプローチは、人間のラベル付き推論トレース、検証された黄金の回答、あるいは事前訓練された報酬モデルなど、スケーラビリティと実用性を制限する外部の監督に依存する。本研究では,エントロピー最小化政策最適化(EMPO)を提案する。 EMPOは、推論能力のインセンティブを与えるための教師付き情報を必要としない(すなわち、検証可能な推論の痕跡、黄金の答えを持つ問題、追加の訓練済み報酬モデル)。潜在意味空間におけるラベル付きユーザクエリ上でのLLMの予測エントロピーを継続的に最小化することにより、EMPOは強力な柔軟性と実用性を備えた推論能力の純粋に自己管理的な進化を可能にする。本実験は,EMPOの数学的推論と自由形式コモンセンス推論の両課題における競合性能を実証した。具体的には、教師付き信号がなければ、EMPOは数学ベンチマークでQwen2.5-Math-7Bベースを30.7\%から48.1\%に、Qwen2.5-7Bインストラクトを87.16\%から97.25\%に改善する。

関連論文リスト

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。 ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文参考訳（メタデータ） (2025-06-23T17:59:02Z)
Answer Convergence as a Signal for Early Stopping in Reasoning [7.60104447055814]
大型言語モデル(LLM)における思考の連鎖(CoT)の促進提案手法は,(1)応答整合性による早期停止,(2)終末信号発生確率の向上,(3)内部アクティベーションに基づいていつ停止するかを学習する教師付き手法である。
論文参考訳（メタデータ） (2025-06-03T07:20:54Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs [28.565225092457897]
強化学習は、検証可能なタスクにおける言語モデルにおける自己改善を促進することができる。また,Qwen-2.5-3BがLlama-3.2-3Bを超えることが確認された。我々の研究は、Qwenが自然にこれらの推論行動を示すのに対して、Llamaはこれらを欠いていることを明らかにしている。
論文参考訳（メタデータ） (2025-03-03T08:46:22Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。 LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-17T18:52:29Z)
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。 OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文参考訳（メタデータ） (2025-02-10T18:57:29Z)
Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths [12.377041655669728]
自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介する。我々は,最近提案されたLLMに基づく障害局所化手法であるAutoFLを用いて実験的に評価した。結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆している。
論文参考訳（メタデータ） (2024-12-11T10:56:47Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。具体的には、従来の質問と比べて平均精度が最大50%低下した。この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文参考訳（メタデータ） (2024-10-19T05:01:56Z)
Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文参考訳（メタデータ） (2024-02-05T18:25:51Z)
ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。 ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。 GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文参考訳（メタデータ） (2024-01-17T04:43:21Z)
OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。 GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文参考訳（メタデータ） (2023-11-16T09:56:28Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。 RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文参考訳（メタデータ） (2022-12-31T22:35:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。