論文の概要: ReasonCACHE: Teaching LLMs To Reason Without Weight Updates
- arxiv url: http://arxiv.org/abs/2602.02366v1
- Date: Mon, 02 Feb 2026 17:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.324782
- Title: ReasonCACHE: Teaching LLMs To Reason Without Weight Updates
- Title(参考訳): ReasonCACHE:軽量アップデートなしでLLMに推論を教える
- Authors: Sharut Gupta, Phillip Isola, Stefanie Jegelka, David Lopez-Paz, Kartik Ahuja, Mark Ibrahim, Mohammad Pezeshki,
- Abstract要約: 大規模言語モデル(LLM)は、コンテキストウィンドウをオーバーロードすることなく、重み付けをすることなく、推論を学習できることを示します。
本稿では、デモを固定キー値キャッシュに蒸留するReasonCACHEについて紹介する。
経験的に、ReasonCACHEは標準のICLよりも優れており、IWLアプローチにマッチするか、超えている。
- 参考スコア(独自算出の注目度): 75.2707292367514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can Large language models (LLMs) learn to reason without any weight update and only through in-context learning (ICL)? ICL is strikingly sample-efficient, often learning from only a handful of demonstrations, but complex reasoning tasks typically demand many training examples to learn from. However, naively scaling ICL by adding more demonstrations breaks down at this scale: attention costs grow quadratically, performance saturates or degrades with longer contexts, and the approach remains a shallow form of learning. Due to these limitations, practitioners predominantly rely on in-weight learning (IWL) to induce reasoning. In this work, we show that by using Prefix Tuning, LLMs can learn to reason without overloading the context window and without any weight updates. We introduce $\textbf{ReasonCACHE}$, an instantiation of this mechanism that distills demonstrations into a fixed key-value cache. Empirically, across challenging reasoning benchmarks, including GPQA-Diamond, ReasonCACHE outperforms standard ICL and matches or surpasses IWL approaches. Further, it achieves this all while being more efficient across three key axes: data, inference cost, and trainable parameters. We also theoretically prove that ReasonCACHE can be strictly more expressive than low-rank weight update since the latter ties expressivity to input rank, whereas ReasonCACHE bypasses this constraint by directly injecting key-values into the attention mechanism. Together, our findings identify ReasonCACHE as a middle path between in-context and in-weight learning, providing a scalable algorithm for learning reasoning skills beyond the context window without modifying parameters. Our project page: https://reasoncache.github.io/
- Abstract(参考訳): 大規模言語モデル(LLM)は、重み付けをせずに、文脈内学習(ICL)を通じてのみ理性を学ぶことができるか?
ICLは、サンプル効率が非常に高く、少数のデモから学ぶことが多いが、複雑な推論タスクは通常、学ぶために多くのトレーニング例を必要とする。
しかし、より多くのデモを追加することで、ICLを自然にスケールアップすることは、この規模で分解される。
これらの制限のため、実践者は推論を誘導するために、主にIWL(In-weight Learning)に依存している。
本研究では、プレフィックスチューニングを用いることで、LLMがコンテキストウィンドウをオーバーロードすることなく、重み付けをせずに推論を学習できることを示す。
デモを固定キー値キャッシュに蒸留するこのメカニズムのインスタンス化である$\textbf{ReasonCACHE}$を紹介します。
GPQA-Diamondを含む挑戦的な推論ベンチマークにおいて、ReasonCACHEは標準のICLよりも優れており、IWLのアプローチよりも優れている。
さらに、データ、推論コスト、トレーニング可能なパラメータの3つの主要な軸にまたがって効率よくこれを実現する。
また、ReasonCACHEは入力ランクに表現性を結び付けるため、低ランクの重み更新よりも厳密に表現できることを理論的に証明する一方、ReasonCACHEは注意機構に直接キー値を注入することで、この制約を回避している。
そこで本研究では,ReasonCACHEをコンテキスト内学習と重み付き学習の中間経路として認識し,パラメータを変更することなく,コンテキストウィンドウを超えて推論スキルを学習するためのスケーラブルなアルゴリズムを提供する。
プロジェクトページ: https://reasoncache.github.io/
関連論文リスト
- Focused Chain-of-Thought: Efficient LLM Reasoning via Structured Input Information [41.10866361182172]
Focused Chain-of-Thought (F-CoT) は、推論プロセスから情報抽出を分離する。
算術語問題では、F-CoTは標準ゼロショットCoTに匹敵する精度を維持しながら、生成されたトークンを2~3倍削減する。
論文 参考訳(メタデータ) (2025-11-27T07:31:52Z) - Informed Routing in LLMs: Smarter Token-Level Computation for Faster Inference [7.690958366125321]
本稿では,これらの問題に積極的に対処する新しいパラダイムであるインフォメーションルーティングを紹介する。
我々は、ルーティング決定を行う前に、ユニットの出力を推定する小さな予測モジュールである軽量特徴予測器(LFF)を提案する。
言語モデリングと推論タスクの両方の実験は、情報ルーティングが最先端の効率と性能のトレードオフを達成することを示す。
論文 参考訳(メタデータ) (2025-10-10T09:59:36Z) - Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [58.62311540316617]
強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文 参考訳(メタデータ) (2025-06-07T02:41:54Z) - Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster [51.89995713333108]
CoT (Chain-of-Thought) 蒸留により、大きな言語モデル (LLM) がタスクを推論するために小さな言語モデル (SLM) を導くことができる。
既存の方法は、SLMに1イテレーションで長い合理性を学ぶように訓練する。
本稿では,論理を内部意味的コヒーレントなチャンクに分割するために探索を用いるチャンクワイズトレーニング(CWT)を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:04:52Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Larger Language Models Don't Care How You Think: Why Chain-of-Thought Prompting Fails in Subjective Tasks [25.562937159039038]
In-Context Learning (ICL) in Large Language Models (LLM) が自然言語処理の主流の手法として登場した。
ICLはタスク先行の検索に大きく依存しており、タスクを実行するための"学習"は少なくなっている。
驚くべきことに、CoT(Chain-of-Thought)は、大きな言語モデルではICLと同じ後方崩壊に悩まされている。
論文 参考訳(メタデータ) (2024-09-10T03:06:17Z) - LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。