論文の概要: LoRi: Low-Rank Distillation for Implicit Reasoning
- arxiv url: http://arxiv.org/abs/2606.05315v1
- Date: Wed, 03 Jun 2026 18:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.329339
- Title: LoRi: Low-Rank Distillation for Implicit Reasoning
- Title(参考訳): LoRi: インシシデント推論のための低ランク蒸留
- Authors: Ryan Solgi, Jiayi Tian, Zheng Zhang,
- Abstract要約: Implicit chain-of- Thought(iCoT)メソッドは、大きな言語モデルでの推論を内部化することを目的としているが、しばしば明示的なCoTプロンプトを過小評価している。
教師と学生の軌跡を共有低ランクテンソル部分空間で整列させることにより推論を伝達する低ランク蒸留フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.490026305145753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit chain-of-thought (iCoT) methods aim to internalize reasoning in large language models, but often underperform explicit CoT prompting. We empirically find that hidden-state reasoning trajectories exhibit low-rank structure. Motivated by this observation, we propose a low-rank distillation framework that transfers reasoning by aligning teacher and student trajectories in a shared low-rank tensor subspace using first- and second-order statistics. The resulting formulation captures the global structure of reasoning while supporting a compact latent reasoning process. We evaluate the method across multiple model families, including LLaMA and Qwen, at different scales on mathematical reasoning benchmarks. Our approach consistently improves performance, especially on challenging multi-step tasks, approaching explicit CoT accuracy and outperforming prior iCoT distillation methods.
- Abstract(参考訳): Implicit chain-of- Thought(iCoT)メソッドは、大きな言語モデルでの推論を内部化することを目的としているが、しばしば明示的なCoTプロンプトを過小評価している。
隠れ状態推論軌道が低ランク構造を示すことを実証的に見出した。
本研究の目的は,教師と学生の軌跡を1次および2次統計量を用いて共有した低ランクテンソル部分空間で整列させることにより推論を伝達する低ランク蒸留フレームワークを提案することである。
結果の定式化は、コンパクトな潜在的推論プロセスをサポートしながら、推論のグローバルな構造をキャプチャする。
LLaMA や Qwen など,複数のモデルファミリにまたがる手法を,数学的推論ベンチマークで異なるスケールで評価する。
提案手法は,特にマルチステップの課題において,明示的なCoT精度にアプローチし,iCoT蒸留法よりも優れた性能を示す。
関連論文リスト
- ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought [49.203970812338916]
明示的な推論連鎖は、かなりの計算冗長性をもたらす。
近年の潜時推論法は、推理過程を潜時空間に圧縮することによりこれを緩和しようとする。
我々はRendered CoT-Guided Variational Latent Reasoning (ReGuLaR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T17:08:06Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Think Consistently, Reason Efficiently: Energy-Based Calibration for Implicit Chain-of-Thought [33.267497114389734]
大規模言語モデル(LLM)は、emphChain-of-Thought(CoT)のプロンプトを通じて、強力な推論能力を示している。
CoT法は離散トークンレベルの推論プロセスに依存しており、誤りの伝播が難しく、語彙によって制限される。
EBM-CoT(Energy-based Chain-of-Thought)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-10T14:10:58Z) - Reasoning Scaffolding: Distilling the Flow of Thought from LLMs [30.569464420145163]
我々は、推論を構造化生成プロセスとして再編成するフレームワークであるReasoning Scaffoldingを紹介します。
本手法は, 精度と論理的整合性の両方において, 最先端の蒸留法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-28T03:49:32Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - EPiC: Towards Lossless Speedup for Reasoning Training through Edge-Preserving CoT Condensation [37.6583581020347]
資源効率のよい推論学習におけるCoT凝縮の問題点について検討する。
本研究では,各CoTトレースの初期セグメントと最終セグメントのみを選択的に保持するエッジ保存凝縮法 EPiC を提案する。
論文 参考訳(メタデータ) (2025-06-04T17:49:10Z) - SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。