論文の概要: Contextual Linear Activation Steering of Language Models
- arxiv url: http://arxiv.org/abs/2604.24693v1
- Date: Mon, 27 Apr 2026 16:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.18941
- Title: Contextual Linear Activation Steering of Language Models
- Title(参考訳): 言語モデルの文脈線形アクティベーションステアリング
- Authors: Brandon Hsu, Daniel Beaglehole, Adityanarayanan Radhakrishnan, Mikhail Belkin,
- Abstract要約: 線形アクティベーションステアリングは、大規模言語モデルの能力を引き出すための強力なアプローチである。
既存の方法は全てのトークンに固定的なステアリング強度を適用し、様々な入力プロンプトに一貫性のないステアリング品質をもたらす。
文脈依存型ステアリング強度に線形活性化ステアリングを動的に適用するCLAS(Contextual Linear Activation Steering)を提案する。
- 参考スコア(独自算出の注目度): 14.044056042247037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear activation steering is a powerful approach for eliciting the capabilities of large language models and specializing their behavior using limited labeled data. While effective, existing methods often apply a fixed steering strength to all tokens, resulting in inconsistent steering quality across diverse input prompts. In this work, we introduce Contextual Linear Activation Steering (CLAS), a method that dynamically adapts linear activation steering to context-dependent steering strengths. Across eleven steering benchmarks and four model families, it consistently outperforms standard linear activation steering and matches or exceeds the performance of ReFT and LoRA in settings with limited labeled data. We therefore propose CLAS as a scalable, interpretable, and accurate method for specializing and steering large language models.
- Abstract(参考訳): 線形アクティベーションステアリングは、大規模言語モデルの能力を引き出すための強力なアプローチであり、ラベル付き限られたデータを用いてその振る舞いを専門化する。
既存の手法は有効であるが、全てのトークンに固定的なステアリング強度を適用し、様々な入力プロンプトに一貫性のないステアリング品質をもたらす。
本研究では,文脈依存型ステアリング強度に線形活性化ステアリングを動的に適応させる手法であるコンテキスト線形アクティブステアリング(CLAS)を紹介する。
11のステアリングベンチマークと4つのモデルファミリで、標準の線形アクティベーションステアリングよりも一貫して優れており、ラベル付きデータに制限された設定でReFTとLoRAのパフォーマンスを上回っている。
そこで我々はCLASを,大規模言語モデルの特殊化と操舵のためのスケーラブルで解釈可能な,高精度な手法として提案する。
関連論文リスト
- Local Linearity of LLMs Enables Activation Steering via Model-Based Linear Optimal Control [2.752817022620644]
推論時間LLMアライメント法は、生成中のアクティベーションを直接修正することで、微調整の代替となる。
複数のLLMアーキテクチャとスケールの層ワイドダイナミクスが局所線形モデルによってよく近似されていることを示す。
我々は, ステアリング性能の正式な保証を可能にするために, セットポイント追従誤差の理論的境界を導出する。
論文 参考訳(メタデータ) (2026-04-21T03:09:46Z) - AMPS: Adaptive Modality Preference Steering via Functional Entropy [66.69992693275061]
本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。
実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-02-13T02:29:06Z) - Steering Language Models Before They Speak: Logit-Level Interventions [9.055997973281919]
制御可能な生成のためのトレーニング不要な推論時間ロジット介入を提案する。
以上の結果から,ロジットステアリングは大きな,一貫した,マルチタスク制御のゲインを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-16T03:00:33Z) - SteerVLM: Robust Model Control through Lightweight Activation Steering for Vision Language Models [4.506695482619111]
本研究は、VLM(Vision-Language Models)のための軽量ステアリングモジュールであるSteerVLMを紹介する。
提案手法は,言語モダリティと画像コンテキストを接続するアクティベーションを動的に調整するために,ターゲットと逆動作を符号化するペアプロンプトの潜伏埋め込みから学習する。
我々の操舵モジュールは、元のVLMの大きさの0.14%に相当する学習パラメータを必要とする。
論文 参考訳(メタデータ) (2025-10-30T17:52:39Z) - HyperSteer: Activation Steering at Scale with Hypernetworks [25.6004576064897]
HyperSteerは、自然言語のステアリングプロンプトに条件付きステアリングベクトルを生成するために、エンドツーエンドでトレーニングされたハイパーネットワークベースのアーキテクチャのファミリーである。
何千ものステアリングプロンプトによるHyperSteerのスケーリングは、最先端のアクティベーションステアリング手法の性能を上回ることを示す。
論文 参考訳(メタデータ) (2025-06-03T18:32:01Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Improving Activation Steering in Language Models with Mean-Centring [10.101141087916133]
目標データセットに関連付けられたアクティベーションの平均値と、トレーニングアクティベーションの平均値を減じることで、効果的なステアリングベクトルが得られることがわかった。
また、関数ベクトルを抽出するために平均セントリングを適用し、より効果的に自然言語タスクの実行を顕著なマージンでトリガーする。
論文 参考訳(メタデータ) (2023-12-06T18:27:07Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。