論文の概要: Improving Latent Reasoning in LLMs via Soft Concept Mixing
- arxiv url: http://arxiv.org/abs/2511.16885v1
- Date: Fri, 21 Nov 2025 01:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.856242
- Title: Improving Latent Reasoning in LLMs via Soft Concept Mixing
- Title(参考訳): ソフトコンセプトミキシングによるLCMの潜時推論の改善
- Authors: Kang Wang, Xiangyu Duan, Tianyi Du,
- Abstract要約: 大規模言語モデル(LLM)は通常、離散トークンを生成することによって推論される。
ソフトコンセプトを意識したトレーニングスキームであるソフトコンセプト混合(SCM)を提案する。
SCMはトレーニング中にモデルをソフト表現に公開する。
- 参考スコア(独自算出の注目度): 5.230565644173722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike human reasoning in abstract conceptual spaces, large language models (LLMs) typically reason by generating discrete tokens, which potentially limit their expressive power. The recent work Soft Thinking has shown that LLMs' latent reasoning via soft concepts is a promising direction, but LLMs are trained on discrete tokens. To reduce this gap between the soft concepts in reasoning and the discrete tokens in training, we propose Soft Concept Mixing (SCM), a soft concept aware training scheme that directly exposes the model to soft representations during training. Specifically, SCM constructs a soft concept vector by forming a probability-weighted average of embeddings. Then, this vector is mixed into the model's hidden states, which embody rich contextual information. Finally, the entire latent reasoning process is optimized with Reinforcement Learning (RL). Experiments on five reasoning benchmarks demonstrate that SCM improves the reasoning performance of LLMs, and simultaneously maintains a stable training dynamic.
- Abstract(参考訳): 抽象的な概念空間における人間の推論とは異なり、大きな言語モデル(LLM)は一般に離散トークンを生成することによって推論し、表現力を制限する可能性がある。
ソフトシンキング(Soft Thinking)の最近の研究は、LSMのソフトコンセプトによる潜在的推論は有望な方向であるが、LSMは離散トークンで訓練されていることを示している。
推論におけるソフトな概念と学習における離散的なトークンとのギャップを軽減するために,訓練中にモデルをソフトな表現に直接公開するソフトな概念認識トレーニングスキームであるソフトなコンセプト・ミキシング(SCM)を提案する。
具体的には、SCMは、埋め込みの確率重み付き平均を形成することにより、ソフトな概念ベクトルを構築する。
そして、このベクトルはモデルの隠れ状態に混合され、リッチなコンテキスト情報を具現化する。
最後に、潜在推論プロセス全体を強化学習(RL)で最適化する。
5つの推論ベンチマークの実験により、SCMはLLMの推論性能を向上し、同時に安定したトレーニングのダイナミクスを維持できることを示した。
関連論文リスト
- LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking [25.468889616586363]
大規模言語モデル(LLM)のソフト思考能力について検討する。
ソフトシンキングが多様な推論経路の並列探索を支援するという一般的な信念とは対照的に,LLMはシングルスレッドの推論として振る舞うことが明らかとなった。
我々の実験は、特にGumbel-max のトリックと無作為性がバニラアプローチの限界を緩和できることを示した。
論文 参考訳(メタデータ) (2025-08-05T13:38:33Z) - Hybrid Latent Reasoning via Reinforcement Learning [50.6763762323985]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。