論文の概要: DEAL: Disentangling Transformer Head Activations for LLM Steering
- arxiv url: http://arxiv.org/abs/2506.08359v1
- Date: Tue, 10 Jun 2025 02:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.158585
- Title: DEAL: Disentangling Transformer Head Activations for LLM Steering
- Title(参考訳): DEAL:LDMステアリング用変圧器ヘッドアクティベーション
- Authors: Li-Ming Zhan, Bo Liu, Zexin Lu, Chengqiang Xie, Jiannong Cao, Xiao-Ming Wu,
- Abstract要約: 本稿では,変圧器における行動関連アテンションヘッドの同定のための因果属性フレームワークを提案する。
各ヘッドに対して,ベクトル量子化オートエンコーダ(VQ-AE)をアテンションアクティベーションに基づいてトレーニングする。
行動整合性と行動違反性に対するVQ-AEエンコーディングの分離性により,各頭部の行動関連性を評価する。
- 参考スコア(独自算出の注目度): 19.770342907146965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time steering aims to alter the response characteristics of large language models (LLMs) without modifying their underlying parameters. A critical step in this process is the identification of internal modules within LLMs that are associated with the target behavior. However, current approaches to module selection often depend on superficial cues or ad-hoc heuristics, which can result in suboptimal or unintended outcomes. In this work, we propose a principled causal-attribution framework for identifying behavior-relevant attention heads in transformers. For each head, we train a vector-quantized autoencoder (VQ-AE) on its attention activations, partitioning the latent space into behavior-relevant and behavior-irrelevant subspaces, each quantized with a shared learnable codebook. We assess the behavioral relevance of each head by quantifying the separability of VQ-AE encodings for behavior-aligned versus behavior-violating responses using a binary classification metric. This yields a behavioral relevance score that reflects each head discriminative capacity with respect to the target behavior, guiding both selection and importance weighting. Experiments on seven LLMs from two model families and five behavioral steering datasets demonstrate that our method enables more accurate inference-time interventions, achieving superior performance on the truthfulness-steering task. Furthermore, the heads selected by our approach exhibit strong zero-shot generalization in cross-domain truthfulness-steering scenarios.
- Abstract(参考訳): 推論時ステアリングは、基礎となるパラメータを変更することなく、大きな言語モデル(LLM)の応答特性を変更することを目的としている。
このプロセスにおける重要なステップは、ターゲットの振る舞いに関連するLSMの内部モジュールの識別である。
しかし、現在のモジュール選択へのアプローチは、しばしば表面的なキューやアドホックなヒューリスティックに依存し、最適でない結果や意図しない結果をもたらす。
本研究では,トランスにおける行動関連アテンションヘッドの同定のための因果属性フレームワークを提案する。
各ヘッドに対して、ベクトル量子化オートエンコーダ(VQ-AE)をそのアテンションアクティベーションに基づいてトレーニングし、潜在空間を行動関連部分空間と行動関連部分空間に分割し、それぞれが共有学習可能なコードブックで量子化する。
本稿では,VQ-AEエンコーディングの動作整合性と行動違反応答の分離性を二分分類基準を用いて定量化することにより,各頭部の行動関連性を評価する。
これにより、それぞれの頭部の識別能力が目的の行動に対して反映され、選択と重み付けの両方を導く行動関連スコアが得られる。
2つのモデルファミリーと5つの行動ステアリングデータセットから得られた7つのLCM実験により,本手法がより正確な推論時間介入を可能にし,真性ステアリングタスクにおいて優れた性能を発揮することを示す。
さらに,本手法により選択された頭部は,クロスドメイン真性-操舵シナリオにおいて強いゼロショット一般化を示す。
関連論文リスト
- Causal Head Gating: A Framework for Interpreting Roles of Attention Heads in Transformers [3.7132788234059104]
本稿では,変圧器モデルにおける注目頭部の機能的役割を解釈するスケーラブルな方法として,因果頭部ゲーティング(CHG)を提案する。
CHGは頭上のソフトゲートを学び、タスクのパフォーマンスへの影響に基づいて因果分類を割り当てる。
以上の結果から,CHGスコアは単に相関ではなく因果関係の指標となり,アブレーションおよび因果媒介分析によって検証された。
論文 参考訳(メタデータ) (2025-05-19T21:24:13Z) - ExpertSteer: Intervening in LLMs through Expert Knowledge [71.12193680015622]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。
本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。
3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2025-05-18T08:55:46Z) - Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。
マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T02:27:23Z) - Designing Role Vectors to Improve LLM Inference Behaviour [8.995812770349605]
大規模言語モデル(LLM)に対するペルソナの影響は広く研究されているが、そのパフォーマンスに対する直接的な影響はいまだ不明である。
この研究は、ペルソナに基づくプロンプトの代替であるロールベクトルを通してLLMの振る舞いを導く新しいアプローチを探求する。
論文 参考訳(メタデータ) (2025-02-17T17:24:37Z) - Focus On This, Not That! Steering LLMs with Adaptive Feature Specification [48.27684487597968]
Focus Instruction Tuning (FIT)は、大きな言語モデルをトレーニングして、特定の機能に注目しながら、他の機能を無視して応答を条件付けする。
我々は,FITが推論時に行動のステアリングに成功したこと,(ii)コアタスク信号の増幅による堅牢性の向上,(iii)人口統計特性の抑制による社会的偏見の軽減,(iv)分布シフト下での一般化,および以前には見つからなかった焦点特徴の緩和を実証した。
論文 参考訳(メタデータ) (2024-10-30T12:01:48Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - LoFiT: Localized Fine-tuning on LLM Representations [60.99814930367597]
LoFiT(Localized Fine-Tuning on LLM Representations)というフレームワークを導入する。
LoFiTは、特定のタスクを学習する上で最も重要なアテンションヘッドのサブセットを特定し、それからオフセットベクトルをトレーニングして、選択したヘッドでモデルの隠れ表現に追加する。
真理性や推論タスクにおいて,LoFiTの介入ベクトルは推論時間干渉などの表現介入手法のベクトルよりもLLM適応に有効であることがわかった。
論文 参考訳(メタデータ) (2024-06-03T17:45:41Z) - Value function interference and greedy action selection in value-based
multi-objective reinforcement learning [1.4206639868377509]
多目的強化学習(MORL)アルゴリズムは従来の強化学習(RL)を拡張する
ユーザのユーティリティ関数が、ベクター値と類似のユーティリティレベルを幅広くマップしている場合、これは干渉を引き起こす可能性があることを示す。
我々は、欲求行動を特定する際にランダムなタイブレークを避けることは、値関数の干渉によって生じる問題を改善できるが、完全には克服できないことを実証的に示す。
論文 参考訳(メタデータ) (2024-02-09T09:28:01Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。