論文の概要: RuPLaR : Efficient Latent Compression of LLM Reasoning Chains with Rule-Based Priors From Multi-Step to One-Step
- arxiv url: http://arxiv.org/abs/2605.09346v1
- Date: Sun, 10 May 2026 05:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.203293
- Title: RuPLaR : Efficient Latent Compression of LLM Reasoning Chains with Rule-Based Priors From Multi-Step to One-Step
- Title(参考訳): RuPLaR : 多段から一段までの規則に基づくLLM共振鎖の効率的な遅延圧縮
- Authors: Xiaocheng Luo, Kang Wang, Zaifu Zhan, Yuechi Zhou, Xiangyu Duan,
- Abstract要約: ルールベースプライオリティを用いた遅延推論のための新しい圧縮フレームワークであるOne-Model One-Stepを紹介する。
本手法は,LSMを訓練し,単一の訓練段階において遅延推論トークンを自律的に生成する。
実験の結果,既存の潜在CoT法よりも11.1%精度が向上した。
- 参考スコア(独自算出の注目度): 7.647393987025467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Chain-of-Thought (CoT) paradigm, while enhancing the interpretability of Large Language Models (LLMs), is constrained by the inefficiencies and expressive limits of natural language. Latent Chain-of-Thought (latent CoT) reasoning, which operates in a continuous latent space, offers a promising alternative but faces challenges from structural complexities in existing multi-step or multi-model paradigms, such as error propagation and coordination overhead. In this paper, we introduce One-Model One-Step, a novel compression framework for Latent Reasoning with Rule-Based Priors(RuPLaR) to address this challenge. Our method trains an LLM to autonomously generate latent reasoning tokens in a single training stage, guided by rule-based prior probability distributions, thereby eliminating cascaded processes and inter-model dependencies. To ensure reasoning quality, we design a joint training objective that enforces answer consistency via cross-entropy, aligns soft tokens with rule-based priors via KL divergence (the Soft Thinking constraint), and adds a problem-thought semantic alignment constraint in the representation space. Extensive experiments show that our compression framework not only improves accuracy by 11.1% over existing latent CoT methods but also achieves this with minimal token usage, underscoring its effectiveness and extensibility. Code: https://github.com/xiaocen-luo/RuPLaR.
- Abstract(参考訳): CoT(Chain-of-Thought)パラダイムは、Large Language Models(LLM)の解釈可能性を高める一方で、自然言語の非効率性と表現的限界によって制約されている。
Latent Chain-of-Thought (latent CoT)推論は、連続的な潜在空間で動作するが、既存のマルチステップやマルチモデルパラダイムにおいて、エラーの伝搬や調整オーバーヘッドといった構造上の複雑さに直面する、有望な代替手段を提供する。
本稿では,ルールベースプライオリティ(RuPLaR)を用いた遅延推論のための新しい圧縮フレームワークであるOne-Model One-Stepを紹介する。
本手法は,ルールに基づく事前確率分布によって導かれる1つの訓練段階において,LLMに遅延推論トークンを自律的に生成するように訓練し,ケースケードプロセスとモデル間の依存関係を除去する。
推論品質を確保するために,クロスエントロピーによる応答整合性の実現,KL発散(ソフトシンキング制約)による規則に基づく先行トークンの整合化,表現空間における問題思考の意味的整合性制約の追加といった共同学習目標を設計する。
大規模な実験により、我々の圧縮フレームワークは既存の潜在CoTメソッドよりも11.1%精度を向上するだけでなく、トークンの使用を最小限に抑え、その有効性と拡張性を裏付ける結果となった。
コード:https://github.com/xiaocen-luo/RuPLaR。
関連論文リスト
- SeLaR: Selective Latent Reasoning in Large Language Models [5.837876642209202]
CoT(Chain-of-Thought)は、大規模言語モデルにおける推論の基盤となっている。
最近の潜在的推論手法は、離散トークンをソフト埋め込みに置き換えることで、この制限を緩和しようとする。
潜在推論のための軽量かつトレーニング不要なフレームワークであるSeLaRを提案する。
論文 参考訳(メタデータ) (2026-04-09T14:32:07Z) - PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - Latent-Space Contrastive Reinforcement Learning for Stable and Efficient LLM Reasoning [16.244366307890832]
textbfDeepLatent Reasoning(DLR)を提案する。
このフレームワークは、試行錯誤コストを、高価なトークンレベルのフルシーケンス生成から連続潜在多様体へシフトさせる。
実験により、DLRはより安定した訓練収束を実現し、より長い水平推論チェーンをサポートし、推論能力の持続的な蓄積を促進することが示されている。
論文 参考訳(メタデータ) (2026-01-24T03:18:22Z) - Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - Constraints-of-Thought: A Framework for Constrained Reasoning in Language-Model-Guided Search [3.0130126601831235]
Constraints-of-Thought (Const-o-T) はモンテカルロ木探索(MCTS)が意味論的に意味のある経路を探索できるようにするフレームワークである。
我々は、Const-o-Tが制約誘導推論の一般化可能な基盤を提供し、より効率的、制約整合性、ドメイン適応型プランニングを可能にすることを実証した。
論文 参考訳(メタデータ) (2025-10-10T04:21:18Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。