論文の概要: Efficient Post-Training Refinement of Latent Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.08552v1
- Date: Tue, 10 Jun 2025 08:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.87114
- Title: Efficient Post-Training Refinement of Latent Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける潜時推論の学習後効率向上
- Authors: Xinyuan Wang, Dongjie Wang, Wangyang Ying, Haoyue Bai, Nanxu Gong, Sixun Dong, Kunpeng Liu, Yanjie Fu,
- Abstract要約: Chain-of-Thoughtのプロンプトは十分なトークンオーバーヘッドと固定された推論軌道に悩まされ、ステップワイズの改良が妨げられる。
潜在推論の最近の進歩は、モデル潜在空間において内部推論プロセスを直接精製することによってこれらの制限に対処している。
本稿では,2つの新しい戦略を用いて遅延推論軌道を洗練する軽量なポストトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.878147805601706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning is a key component of language understanding in Large Language Models. While Chain-of-Thought prompting enhances performance via explicit intermediate steps, it suffers from sufficient token overhead and a fixed reasoning trajectory, preventing step-wise refinement. Recent advances in latent reasoning address these limitations by refining internal reasoning processes directly in the model's latent space, without producing explicit outputs. However, a key challenge remains: how to effectively update reasoning embeddings during post-training to guide the model toward more accurate solutions. To overcome this challenge, we propose a lightweight post-training framework that refines latent reasoning trajectories using two novel strategies: 1) Contrastive reasoning feedback, which compares reasoning embeddings against strong and weak baselines to infer effective update directions via embedding enhancement; 2) Residual embedding refinement, which stabilizes updates by progressively integrating current and historical gradients, enabling fast yet controlled convergence. Extensive experiments and case studies are conducted on five reasoning benchmarks to demonstrate the effectiveness of the proposed framework. Notably, a 5\% accuracy gain on MathQA without additional training.
- Abstract(参考訳): 推論は、大規模言語モデルにおける言語理解の重要な要素である。
Chain-of-Thoughtは明示的な中間ステップによってパフォーマンスを向上させるが、十分なトークンオーバーヘッドと固定された推論軌道に悩まされ、ステップワイズの改善が妨げられる。
潜在推論の最近の進歩は、明示的な出力を生成することなく、モデル潜在空間内で内部推論プロセスを直接精錬することで、これらの制限に対処している。
しかし、重要な課題は、モデルをより正確なソリューションへと導くために、ポストトレーニング中の推論の埋め込みを効果的に更新する方法である。
この課題を克服するために、我々は2つの新しい戦略を用いて遅延推論軌道を洗練する軽量なポストトレーニングフレームワークを提案する。
1) 埋め込みの強化による効果的な更新方向を推測するために、強弱ベースラインに対する推論の埋め込みと比較する対照的な推論フィードバック。
2) 経年変化と経年変化を漸進的に統合して更新を安定化し, 高速かつ制御された収束を可能にする残留埋込み改良。
提案手法の有効性を実証するために,5つの推論ベンチマークを用いて実験とケーススタディを行った。
特に、追加のトレーニングなしでMathQAの精度が5倍に向上する。
関連論文リスト
- SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - Short-Path Prompting in LLMs: Analyzing Reasoning Instability and Solutions for Robust Performance [33.16322104912836]
大規模言語モデル (LLM) の推論は、主にチェーン・オブ・シント (CoT) のアプローチによるものである。
LLMは、推論に関連する質問に応答するときに、長くて詳細なCoT経路を提供するように、命令調整される。
人間は自然に認知的な惨事であり、言語モデルにかなり短い反応を与えるよう促す。
論文 参考訳(メタデータ) (2025-04-13T14:12:14Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
思考の連鎖(CoT)推論はLLMの潜在能力を活性化するための効果的なアプローチとして現れている。
推論性能を改善するための新しいCoTフレームワークを提案する。
本フレームワークは,初期推論プロセスを最適化するタスク固有のプロンプトモジュールと,動的に推論プロセスを洗練させる適応推論モジュールの2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-12-14T13:12:50Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。