論文の概要: LTA-thinker: Latent Thought-Augmented Training Framework for Large Language Models on Complex Reasoning
- arxiv url: http://arxiv.org/abs/2509.12875v1
- Date: Tue, 16 Sep 2025 09:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.999961
- Title: LTA-thinker: Latent Thought-Augmented Training Framework for Large Language Models on Complex Reasoning
- Title(参考訳): LTA-thinker: 複雑推論に基づく大規模言語モデルのための潜在思考強化学習フレームワーク
- Authors: Jiaqi Wang, Binquan Ji, Haibo Luo, Yiyang Qi, Ruiting Li, Huiyan Wang, Yuantao Han, Cangyi Yang, jiaxu Zhang, Feiliang Ren,
- Abstract要約: 大規模言語モデルの複雑な推論は、テスト時間スケーリング(TTS)を使用して動的に最適化し、オーバーライドを緩和することができる。
本稿では,分散分散を改善し,2つの観点から推論性能を向上させる潜在思考強化学習フレームワーク--LTA-Thinkerを提案する。
- 参考スコア(独自算出の注目度): 9.466019851698725
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Complex Reasoning in Large Language Models can be dynamically optimized using Test-Time Scaling (TTS) to mitigate Overthinking. Methods such as Coconut, SoftCoT and its variant are effective in continuous latent space inference, the core bottleneck still lies in the efficient generation and utilization of high-quality Latent Thought. Drawing from the theory of SoftCoT++ that a larger variance in the generated Latent Thought distribution more closely approximates the golden truth distribution, we propose a Latent Thought-Augmented Training Framework--LTA-Thinker, which improves distributional variance and enhances reasoning performance from two perspectives. First, LTA-Thinker constructs a Latent Thought generation architecture based on a learnable prior. This architecture aims to increase the variance distribution of generated Latent Thought Vectors in order to simplify the overall structure and raise the performance ceiling. Second, LTA-Thinker introduces a distribution-based directional optimization paradigm that jointly constrains both distribution locality and distribution scale. This mechanism improves information efficiency and computational cost through a multi-objective co-training strategy, which combines standard Supervised Fine-Tuning (SFT) loss with two novel losses: Semantic Alignment Loss, which utilizes KL divergence to ensure that the Latent Thought is highly relevant to the semantics of the question; Reasoning Focus Loss, which utilizes a contrastive learning mechanism to guide the model to focus on the most critical reasoning steps. Experiments show that LTA-thinker achieves state-of-the-art (SOTA) performance among various baselines and demonstrates a higher performance ceiling and better scaling effects.
- Abstract(参考訳): 大規模言語モデルの複雑な推論は、テスト時間スケーリング(TTS)を使用して動的に最適化し、オーバーライドを緩和することができる。
Coconut、SoftCoT、およびその変種のような手法は連続的な潜在空間推論に有効であり、中核のボトルネックは依然として高品質な潜在思想の効率的な生成と利用にある。
生成した潜在思想分布の分散が黄金の真理分布により近いというSoftCoT++の理論から、分布分散を改善し、二つの観点から推論性能を高める潜在思想拡張訓練フレームワーク-LTA-Thinkerを提案する。
まず、LTA-Thinkerは学習可能な事前に基づいて遅延思考生成アーキテクチャを構築する。
このアーキテクチャは、全体の構造を簡素化し、性能天井を上げるために生成された潜在思考ベクトルの分散分布を増大させることを目的としている。
第二に、LTA-Thinkerは分布の局所性と分布スケールの両方を共同で制約する分散ベースの方向性最適化パラダイムを導入している。
このメカニズムは、標準的なスーパーバイザード・ファイン・チューニング(SFT)損失と、KLの発散を利用したセマンティック・アライメント・ロス(Semantic Alignment Loss)という2つの新しい損失を組み合わせ、情報効率と計算コストを改善する。
実験により, LTA-thinkerは様々なベースラインで最先端(SOTA)性能を実現し, 高い性能天井と優れたスケーリング効果を示した。
関連論文リスト
- Compressing Chain-of-Thought in LLMs via Step Entropy [12.576398947428988]
Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。
本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文 参考訳(メタデータ) (2025-08-05T11:48:18Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
思考の連鎖(CoT)推論はLLMの潜在能力を活性化するための効果的なアプローチとして現れている。
推論性能を改善するための新しいCoTフレームワークを提案する。
本フレームワークは,初期推論プロセスを最適化するタスク固有のプロンプトモジュールと,動的に推論プロセスを洗練させる適応推論モジュールの2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-12-14T13:12:50Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。