論文の概要: KV Cache Steering for Inducing Reasoning in Small Language Models
- arxiv url: http://arxiv.org/abs/2507.08799v1
- Date: Fri, 11 Jul 2025 17:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.458216
- Title: KV Cache Steering for Inducing Reasoning in Small Language Models
- Title(参考訳): 小型言語モデルにおける推論のためのKVキャッシュステアリング
- Authors: Max Belitsky, Dawid J. Kopiczko, Michael Dorkenwald, M. Jehanzeb Mirza, Cees G. M. Snoek, Yuki M. Asano,
- Abstract要約: 言語モデルの暗黙的ステアリングのための軽量な手法であるキャッシュステアリングを提案する。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
- 参考スコア(独自算出の注目度): 44.97633860257524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose cache steering, a lightweight method for implicit steering of language models via a one-shot intervention applied directly to the key-value cache. To validate its effectiveness, we apply cache steering to induce chain-of-thought reasoning in small language models. Our approach leverages GPT-4o-generated reasoning traces to construct steering vectors that shift model behavior toward more explicit, multi-step reasoning without fine-tuning or prompt modifications. Experimental evaluations on diverse reasoning benchmarks demonstrate that cache steering improves both the qualitative structure of model reasoning and quantitative task performance. Compared to prior activation steering techniques that require continuous interventions, our one-shot cache steering offers substantial advantages in terms of hyperparameter stability, inference-time efficiency, and ease of integration, making it a more robust and practical solution for controlled generation.
- Abstract(参考訳): キーバリューキャッシュに直接適用されるワンショット介入により,言語モデルの暗黙的なステアリングを行う軽量な手法であるキャッシュステアリングを提案する。
提案手法の有効性を検証するため,小型言語モデルにおけるチェーン・オブ・ソート推論の誘導にキャッシュステアリングを適用した。
提案手法では, GPT-4o 生成した推論トレースを利用して, 微調整や迅速な修正を伴わずに, モデル動作をより明示的で多段階の推論にシフトするステアリングベクトルを構築する。
各種推論ベンチマークの実験により,キャッシュステアリングがモデル推論の定性的構造と量的タスク性能の両方を改善することが示された。
連続的な介入を必要とする事前のアクティベーションステアリング技術と比較して、我々のワンショットキャッシュステアリングは、ハイパーパラメータ安定性、推論時間効率、統合の容易さという面で大きな利点をもたらし、制御された生成のためのより堅牢で実用的なソリューションとなる。
関連論文リスト
- KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - STU-PID: Steering Token Usage via PID Controller for Efficient Large Language Model Reasoning [0.0]
拡張チェーン・オブ・シンクレット(CoT)推論を用いた大規模言語モデルは、しばしば過度に考え抜かれた現象に悩まされる。
推論中の操舵強度を動的に活性化するPIDコントローラを用いた新しいトレーニングフリー手法STUPIDを提案する。
提案手法では,冗長推論パターンを検出するチャンクレベル分類器と,予測冗長性確率に基づいて操舵強度を適応的に調整するPID制御機構を組み合わせる。
論文 参考訳(メタデータ) (2025-06-23T16:47:19Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Instruction Following by Boosting Attention of Large Language Models [11.739148611340964]
潜水ステアリングは 内部の活性化を 誘導する 軽量な技術だ
InstABoostは、世代間のモデルの注意を変えることで、インストラクションの強度を高める。
InstABoostは従来のプロンプトと潜伏したステアリングよりも優れたコントロール成功を示している。
論文 参考訳(メタデータ) (2025-06-16T17:42:35Z) - Learning Distribution-Wise Control in Representation Space for Language Models [7.756342860929851]
学習可能な介入は、概念のサブスペースにポイントワイズ制御を適用することを目的としており、ハイレベルな振る舞いを変更するのに有効であることが証明されている。
我々は、このアプローチを分布レベルにまで拡張し、モデルがポイントワイズ変換だけでなく、概念部分空間の周辺領域も学習できるようにする。
論文 参考訳(メタデータ) (2025-06-07T06:52:58Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T03:18:31Z) - Neural Parameter Search for Slimmer Fine-Tuned Models and Better Transfer [17.463052541838504]
微調整されたモデルは、しばしば特定のドメインの外で苦労し、かなりの冗長性を示す。
近年の研究では、プルーニングされた微調整モデルと元の事前学習モデルを組み合わせることで、タスク間でモデルパラメータをマージする際の干渉を軽減することが示唆されている。
微調整モデルのスリム化のためのニューラル・プルーニング(NPS-Pruning)という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-24T14:27:20Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Tuning Legged Locomotion Controllers via Safe Bayesian Optimization [47.87675010450171]
本稿では,ロボットハードウェアプラットフォームにおけるモデルベースコントローラの展開を効率化するための,データ駆動型戦略を提案する。
モデルフリーな安全な学習アルゴリズムを用いて制御ゲインのチューニングを自動化し、制御定式化で使用される単純化されたモデルと実システムとのミスマッチに対処する。
論文 参考訳(メタデータ) (2023-06-12T13:10:14Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。