論文の概要: Towards Understanding Steering Strength
- arxiv url: http://arxiv.org/abs/2602.02712v1
- Date: Mon, 02 Feb 2026 19:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.031509
- Title: Towards Understanding Steering Strength
- Title(参考訳): ステアリング強度の理解に向けて
- Authors: Magamed Taimeskhanov, Samuel Vaiter, Damien Garreau,
- Abstract要約: 大規模言語モデルの訓練後制御に対する一般的なアプローチは、中間潜在表現のステアリングである。
本研究では, 操舵力に関する最初の理論的解析法を提案する。
我々の分析では、ステアリング強度の非単調効果を含む驚くべき挙動を明らかにした。
- 参考スコア(独自算出の注目度): 15.203729631608253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A popular approach to post-training control of large language models (LLMs) is the steering of intermediate latent representations. Namely, identify a well-chosen direction depending on the task at hand and perturbs representations along this direction at inference time. While many propositions exist to pick this direction, considerably less is understood about how to choose the magnitude of the move, whereas its importance is clear: too little and the intended behavior does not emerge, too much and the model's performance degrades beyond repair. In this work, we propose the first theoretical analysis of steering strength. We characterize its effect on next token probability, presence of a concept, and cross-entropy, deriving precise qualitative laws governing these quantities. Our analysis reveals surprising behaviors, including non-monotonic effects of steering strength. We validate our theoretical predictions empirically on eleven language models, ranging from a small GPT architecture to modern models.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練後制御に対する一般的なアプローチは、中間潜在表現の操舵である。
すなわち、手作業に応じて井戸線方向を識別し、推論時にこの方向に沿って摂動する。
この方向を選択するための提案が多数存在するが、移動の大きさをどう選ぶかは理解されていないが、その重要性は明確である。
本研究では, 操舵力に関する最初の理論的解析法を提案する。
我々は、次のトークン確率、概念の存在、およびクロスエントロピーに対するその効果を特徴付け、これらの量を管理する正確な定性的法則を導出する。
我々の分析では、ステアリング強度の非単調効果を含む驚くべき挙動を明らかにした。
我々は、GPTアーキテクチャから最新のモデルまで、11の言語モデルに対して、理論的予測を実証的に検証する。
関連論文リスト
- Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Momentum Point-Perplexity Mechanics in Large Language Models [0.0]
我々は、大規模言語モデルの内部隠れ状態が、推論中にトークンからトークンへどのように変化するかを研究するために、物理学に基づくアプローチをとる。
隠れ状態の変化率と、物理におけるエネルギーに類似したモデルが持つ次の確実性を組み合わせた量は、ほぼ一定である。
我々は、ターゲットトークンを優先するために最小限の方法で隠れた状態を摂動するジャコビアンステアリングと呼ばれる制御手法を導出する。
論文 参考訳(メタデータ) (2025-08-11T21:50:34Z) - Reasoning-Finetuning Repurposes Latent Representations in Base Models [1.3286418032136589]
微調整を推論することによって引き起こされる創発的な振る舞いであるバックトラックは、モデルの強化能力を推論する上で重要なメカニズムであることが示されている。
バックトラックの出現は,すでにベースモデルアクティベーションに存在している再利用方向によって部分的に駆動されていることを示す。
論文 参考訳(メタデータ) (2025-07-16T21:21:03Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - Mitigating Overthinking in Large Reasoning Models via Manifold Steering [32.666911833023526]
大規模推論モデル(LRMs)は、推論中に過剰思考として知られる現象を示す。
低次元活性化多様体に操舵方向を優雅に投影する新しいアプローチであるマニフォールドステアリングを提案する。
本手法は,数個の数式ベンチマークの精度を維持・改善しながら,出力トークンを最大71%削減する。
論文 参考訳(メタデータ) (2025-05-28T14:39:26Z) - The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think [81.38614558541772]
本稿では,モデル推論の分析とステアリングのためのフレームワークであるCoT Encyclopediaを紹介する。
本手法はモデル生成CoTから多種多様な推論基準を自動的に抽出する。
このフレームワークは既存の手法よりも解釈可能で包括的分析が可能であることを示す。
論文 参考訳(メタデータ) (2025-05-15T11:31:02Z) - Symmetric Pruning of Large Language Models [61.309982086292756]
Wanda や RIA のような訓練後プルニングの手法は、シンプルだが効果的な設計で知られている。
本稿では, プルーニングの標準最小化目標を再定義する新たな理論的知見を紹介する。
本稿では,入力アクティベーションと重みの両面を考慮した補完戦略を提案する。
論文 参考訳(メタデータ) (2025-01-31T09:23:06Z) - A Timeline and Analysis for Representation Plasticity in Large Language Models [0.0]
本稿では, 異なる微調整段階において抽出したステアリングを応用することにより, 「正直」 と モデル塑性がいかに進化するかを理解することを目的とする。
初期のステアリングは高い塑性を示すが、後期は驚くほど反応のよい臨界窓を持つ。
これらの洞察は、AI透明性の分野に大きく貢献し、効率の急激な欠如に対処し、モデルの振る舞いを効果的に操る能力を制限する。
論文 参考訳(メタデータ) (2024-10-08T17:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。