論文の概要: Steering at the Source: Style Modulation Heads for Robust Persona Control
- arxiv url: http://arxiv.org/abs/2603.13249v1
- Date: Tue, 24 Feb 2026 07:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.229456
- Title: Steering at the Source: Style Modulation Heads for Robust Persona Control
- Title(参考訳): ソースのステアリング:ロバストなペルソナ制御のためのスタイル変調ヘッド
- Authors: Yoshihiro Izawa, Gouki Minegishi, Koshi Eguchi, Sosuke Hosokawa, Kenjiro Taura,
- Abstract要約: アクティベーションステアリングは、微調整なしで大規模言語モデル(LLM)を制御するための計算効率の良いメカニズムを提供する。
本研究は,ペルソナとスタイル形成を独立して管理する,注目の少ないサブセットを同定する。
本研究は,これら特定の頭部のみを標的とした介入が,残留ストリームステアリングで観察されるコヒーレンシ劣化を著しく軽減しつつ,頑健な行動制御を実現することを実証する。
- 参考スコア(独自算出の注目度): 1.842570462253593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation steering offers a computationally efficient mechanism for controlling Large Language Models (LLMs) without fine-tuning. While effectively controlling target traits (e.g., persona), coherency degradation remains a major obstacle to safety and practical deployment. We hypothesize that this degradation stems from intervening on the residual stream, which indiscriminately affects aggregated features and inadvertently amplifies off-target noise. In this work, we identify a sparse subset of attention heads (only three heads) that independently govern persona and style formation, which we term Style Modulation Heads. Specifically, these heads can be localized via geometric analysis of internal representations, combining layer-wise cosine similarity and head-wise contribution scores. We demonstrate that intervention targeting only these specific heads achieves robust behavioral control while significantly mitigating the coherency degradation observed in residual stream steering. More broadly, our findings show that precise, component-level localization enables safer and more precise model control.
- Abstract(参考訳): アクティベーションステアリングは、微調整なしで大規模言語モデル(LLM)を制御するための計算効率の良いメカニズムを提供する。
ターゲット特性(ペルソナなど)を効果的に制御する一方で、コヒーレンシの低下は、安全と実践的なデプロイメントの大きな障害として残っています。
この劣化は, 集合的特徴に無差別に影響を及ぼし, 対象外雑音を無意識に増幅する残差流の介入に起因すると仮定する。
本研究は,「スタイル・モジュレーション・ヘッド」と呼ばれるペルソナとスタイル・フォーメーションを独立に支配する,注目ヘッドのまばらなサブセット(3つのヘッドのみ)を同定する。
具体的には、これらのヘッドは内部表現の幾何学的解析を通じて局所化することができ、レイヤーワイドのコサイン類似性とヘッドワイドのコントリビューションスコアを組み合わせることができる。
本研究は,これら特定の頭部のみを標的とした介入が,残留ストリームステアリングで観察されるコヒーレンシ劣化を著しく軽減しつつ,頑健な行動制御を実現することを実証する。
より広範に、我々はコンポーネントレベルの精密な局所化により、より安全でより正確なモデル制御が可能であることを示した。
関連論文リスト
- Engineering Verifiable Modularity in Transformers via Per-Layer Supervision [0.0]
分散冗長性は損傷を補うため、資本化にとって重要なものとして認識される注目ヘッドを非難することは、最小限の行動変化をもたらす。
アーキテクチャの介入が隠されたモジュール性を公開することを実証します。
このことは、受動的観察から能動的制御への解釈可能性変換の方法論を台無しにしている。
論文 参考訳(メタデータ) (2026-03-08T05:18:14Z) - Steering Safely or Off a Cliff? Rethinking Specificity and Robustness in Inference-Time Interventions [2.977664945581083]
ステアリングは高い有効性を実現し,全般的および制御的特異性を維持するが,ロバスト性特異性を維持することは一貫して失敗することを示す。
本研究は, モデルステアリングにおける特異性の最初の体系的評価を行い, 標準有効性および特異性チェックが不十分であることを示す。
論文 参考訳(メタデータ) (2026-02-05T23:14:05Z) - Internalizing LLM Reasoning via Discovery and Replay of Latent Actions [4.830503861275364]
連鎖プロセスの隠れ状態への内部化は、テスト時間計算をスケールするための非常に効率的なパラダイムとして現れている。
動的潜在軌道制御問題として推論強化を再構築するSTIR(Self-Distilled Tools for Internal Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-02-04T08:44:57Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Where and How to Perturb: On the Design of Perturbation Guidance in Diffusion and Flow Models [48.385105851598745]
ヘードハンター(HeadHunter)は、ユーザ中心の目標に合わせた注意点を反復的に選択するための体系的なフレームワークである。
ソフトパグ(SoftPAG)は、摂動強度を調整し、アーティファクトを抑える連続したノブである。
大規模なDiTベースのテキスト・ツー・イメージ・モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-06-12T17:59:51Z) - Semi-Supervised Unconstrained Head Pose Estimation in the Wild [57.11798881492183]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。
本手法は, 前回のランドマークに基づくアフィンアライメントよりも, 野生の頭部のアスペクト比不変収穫が優れているという観測に基づいている。
提案手法は, 汎用物体回転回帰法や3次元頭部再構成法など, その他の密接に関連する問題を解く上でも有用である。
論文 参考訳(メタデータ) (2024-04-03T08:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。