論文の概要: REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering
- arxiv url: http://arxiv.org/abs/2506.08359v2
- Date: Wed, 01 Oct 2025 16:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.627725
- Title: REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering
- Title(参考訳): REAL: 言語モデルステアリングにおける高精度なローカライゼーションのためのトランスフォーマーアクティベーションの読み出し
- Authors: Li-Ming Zhan, Bo Liu, Chengqiang Xie, Jiannong Cao, Xiao-Ming Wu,
- Abstract要約: 推論時ステアリングは、パラメータを変更することなく、大きな言語モデルの応答を変更することを目的としている。
既存のアプローチはしばしば単純化的なキューやアドホックな一般化に依存している。
本稿では,Transformerモデルにおける振る舞い関連モジュールを識別するフレームワークであるREALを紹介する。
- 参考スコア(独自算出の注目度): 26.428347164111926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time steering aims to alter a large language model's (LLM's) responses without changing its parameters, but a central challenge is identifying the internal modules that most strongly govern the target behavior. Existing approaches often rely on simplistic cues or ad hoc heuristics, leading to suboptimal or unintended effects. We introduce REAL, a framework for identifying behavior-relevant modules (attention heads or layers) in Transformer models. For each module, REAL trains a vector-quantized autoencoder (VQ-AE) on its hidden activations and uses a shared, learnable codebook to partition the latent space into behavior-relevant and behavior-irrelevant subspaces. REAL quantifies a module's behavioral relevance by how well its VQ-AE encodings discriminate behavior-aligned from behavior-violating responses via a binary classification metric; this score guides both module selection and steering strength. We evaluate REAL across eight LLMs from the Llama and Qwen families and nine datasets spanning truthfulness enhancement, open-domain QA under knowledge conflicts, and general alignment tasks. REAL enables more effective inference-time interventions, achieving an average relative improvement of 20% (up to 81.5%) over the ITI method on truthfulness steering. In addition, the modules selected by REAL exhibit strong zero-shot generalization in cross-domain truthfulness-steering scenarios.
- Abstract(参考訳): 推論時ステアリングは、パラメータを変更することなく、大きな言語モデル(LLM)のレスポンスを変更することを目的としている。
既存のアプローチは、しばしば単純化的な手がかりやアドホックなヒューリスティックに頼り、最適でない効果や意図しない効果をもたらす。
トランスフォーマーモデルにおける振舞い関連モジュール(アテンションヘッドやレイヤ)を識別するフレームワークであるREALを紹介する。
各モジュールに対して、REALはその隠れたアクティベーションにベクトル量子化されたオートエンコーダ(VQ-AE)を訓練し、共有され学習可能なコードブックを使用して、潜在空間を行動関連および行動関連でないサブスペースに分割する。
REALは、そのVQ-AEエンコーディングが二分分類基準によって行動違反応答とどのように一致しているかによって、モジュールの行動関係を定量化し、このスコアはモジュールの選択と操舵強度の両方を導く。
Llama と Qwen の8つの LLM および9つのデータセットを用いて REAL を評価する。
REALはより効果的な推論時間の介入を可能にし、ITI法よりも20%(最大81.5%)の相対的な改善を実現している。
さらに、REALによって選択されたモジュールは、クロスドメイン真性-ステアリングシナリオにおいて強いゼロショットの一般化を示す。
関連論文リスト
- Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - CKAA: Cross-subspace Knowledge Alignment and Aggregation for Robust Continual Learning [80.18781219542016]
継続的学習(CL)は、シーケンシャルなタスクストリームから継続的に学習するAIモデルに権限を与える。
近年,パラメータ効率のよい微調整(PEFT)によるCL法が注目されている。
ミスリード型タスクIDに対するロバスト性を高めるために,クロスサブスペース・ナレッジアライメント・アグリゲーション(CKAA)を提案する。
論文 参考訳(メタデータ) (2025-07-13T03:11:35Z) - Causal Head Gating: A Framework for Interpreting Roles of Attention Heads in Transformers [3.7132788234059104]
本稿では,変圧器モデルにおける注目頭部の機能的役割を解釈するスケーラブルな方法として,因果頭部ゲーティング(CHG)を提案する。
CHGは頭上のソフトゲートを学び、タスクのパフォーマンスへの影響に基づいて因果分類を割り当てる。
以上の結果から,CHGスコアは単に相関ではなく因果関係の指標となり,アブレーションおよび因果媒介分析によって検証された。
論文 参考訳(メタデータ) (2025-05-19T21:24:13Z) - ExpertSteer: Intervening in LLMs through Expert Knowledge [71.12193680015622]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。
本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。
3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2025-05-18T08:55:46Z) - Behaviour Discovery and Attribution for Explainable Reinforcement Learning [6.123880364445758]
強化学習(RL)エージェントへの信頼を構築するには、なぜ特定の決定を下すのかを理解する必要がある。
既存の説明可能性の手法は、しばしば単一状態または全軌道に焦点をあてる。
動作発見とセグメンテーションのための完全にオフラインで報酬のないフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T08:06:00Z) - Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。
マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T02:27:23Z) - Designing Role Vectors to Improve LLM Inference Behaviour [8.995812770349605]
大規模言語モデル(LLM)に対するペルソナの影響は広く研究されているが、そのパフォーマンスに対する直接的な影響はいまだ不明である。
この研究は、ペルソナに基づくプロンプトの代替であるロールベクトルを通してLLMの振る舞いを導く新しいアプローチを探求する。
論文 参考訳(メタデータ) (2025-02-17T17:24:37Z) - Focus On This, Not That! Steering LLMs with Adaptive Feature Specification [48.27684487597968]
Focus Instruction Tuning (FIT)は、大きな言語モデルをトレーニングして、特定の機能に注目しながら、他の機能を無視して応答を条件付けする。
我々は,FITが推論時に行動のステアリングに成功したこと,(ii)コアタスク信号の増幅による堅牢性の向上,(iii)人口統計特性の抑制による社会的偏見の軽減,(iv)分布シフト下での一般化,および以前には見つからなかった焦点特徴の緩和を実証した。
論文 参考訳(メタデータ) (2024-10-30T12:01:48Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - LoFiT: Localized Fine-tuning on LLM Representations [60.99814930367597]
LoFiT(Localized Fine-Tuning on LLM Representations)というフレームワークを導入する。
LoFiTは、特定のタスクを学習する上で最も重要なアテンションヘッドのサブセットを特定し、それからオフセットベクトルをトレーニングして、選択したヘッドでモデルの隠れ表現に追加する。
真理性や推論タスクにおいて,LoFiTの介入ベクトルは推論時間干渉などの表現介入手法のベクトルよりもLLM適応に有効であることがわかった。
論文 参考訳(メタデータ) (2024-06-03T17:45:41Z) - Value function interference and greedy action selection in value-based
multi-objective reinforcement learning [1.4206639868377509]
多目的強化学習(MORL)アルゴリズムは従来の強化学習(RL)を拡張する
ユーザのユーティリティ関数が、ベクター値と類似のユーティリティレベルを幅広くマップしている場合、これは干渉を引き起こす可能性があることを示す。
我々は、欲求行動を特定する際にランダムなタイブレークを避けることは、値関数の干渉によって生じる問題を改善できるが、完全には克服できないことを実証的に示す。
論文 参考訳(メタデータ) (2024-02-09T09:28:01Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。