論文の概要: Global Evolutionary Steering: Refining Activation Steering Control via Cross-Layer Consistency
- arxiv url: http://arxiv.org/abs/2603.12298v1
- Date: Thu, 12 Mar 2026 03:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.689068
- Title: Global Evolutionary Steering: Refining Activation Steering Control via Cross-Layer Consistency
- Title(参考訳): グローバル進化ステアリング:クロス層整合性による活性化ステアリング制御の精製
- Authors: Xinyan Jiang, Wenjing Yu, Di Wang, Lijie Hu,
- Abstract要約: アクティベーションエンジニアリングは、微調整の計算コストを伴わずに、大規模言語モデル(LLM)の正確な制御を可能にする。
静的なアクティベーション差からベクトルを導出する既存の手法は、高次元ノイズや階層的なセマンティックドリフトの影響を受けやすい。
本稿では,GERステアリング(Global Evolutionary Refined Steering, GER-steer)を提案する。
- 参考スコア(独自算出の注目度): 12.78111885039368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation engineering enables precise control over Large Language Models (LLMs) without the computational cost of fine-tuning. However, existing methods deriving vectors from static activation differences are susceptible to high-dimensional noise and layer-wise semantic drift, often capturing spurious correlations rather than the target intent. To address this, we propose Global Evolutionary Refined Steering (GER-steer), a training-free framework that grounded in the geometric stability of the network's representation evolution. GER-steer exploits this global signal to rectify raw steering vectors, effectively decoupling robust semantic intent from orthogonal artifacts. Extensive evaluations confirm that GER-steer consistently outperforms baselines, delivering superior efficacy and generalization without layer-specific tuning, establishing a universal solution for reliable model alignment.
- Abstract(参考訳): アクティベーションエンジニアリングは、微調整の計算コストを伴わずに、大規模言語モデル(LLM)の正確な制御を可能にする。
しかし、静的なアクティベーション差からベクトルを導出する方法は、高次元ノイズや層ワイドなセマンティックドリフトの影響を受けやすく、しばしばターゲットの意図よりも突発的な相関を捉えている。
そこで我々はGERステアリング(Global Evolutionary Refined Steering, GER-steer)を提案する。
GERステアは、このグローバル信号を利用して生のステアリングベクトルを修正し、直交アーティファクトから頑健な意味的意図を効果的に分離する。
GERステアはベースラインを一貫して上回り、層固有のチューニングを伴わずに優れた効率と一般化を提供し、信頼性のあるモデルアライメントのための普遍的な解を確立している。
関連論文リスト
- Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection [8.819278296219071]
大規模言語モデル(LLM)は複雑なユーザ命令に従わないことが多い。
アクティベーションステアリング技術はモデル内部を操作することを目的としているが、オーバーステアリングの危険性がある。
余分なデータセットを使わずにKVキャッシュをスケーリングすることで、操舵強度を動的に調節する新しい操舵法であるDIRECTERを導入する。
論文 参考訳(メタデータ) (2026-03-06T09:49:32Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Steer2Edit: From Activation Steering to Component-Level Editing [24.755027943286432]
我々は、ステアリングベクトルをコンポーネントランク1の重み付けのための診断信号に変換する、トレーニング不要のフレームワークであるSteer2Editを提案する。
安全性のアライメント、属性緩和、推論効率などを通じて、Steer2Editは一貫して、より好ましい属性ユーティリティトレードオフを実現している。
全体として、Steer2Editは表現ステアリングとウェイト編集の間に原則化されたブリッジを提供する。
論文 参考訳(メタデータ) (2026-02-10T15:15:15Z) - Spherical Steering: Geometry-Aware Activation Rotation for Language Models [15.078810641141295]
推論時ステアリングは、言語モデル(LM)をトレーニングのコストなしで制御するための有望なパラダイムとして登場した。
本研究では,活性化回転によりこのトレードオフを解消する訓練不要プリミティブである球状ステアリングについて検討する。
本手法は,信号の完全性を保ちながら,測地線に沿って目標方向に向かって活性化を回転させ,目標概念に向けての活性化を誘導する。
論文 参考訳(メタデータ) (2026-02-09T00:15:47Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Dynamically Scaled Activation Steering [3.177576903071419]
動的にスケールされたアクティベーションステアリング(DSAS)を導入します。これはメソッドに依存しないステアリングフレームワークで、ステアリングの仕方を分離します。
DSASは、層と入力間の既存の操舵変換の強度を適応的に調節し、望ましくない振る舞いが検出された場合にのみ強く介入する。
論文 参考訳(メタデータ) (2025-12-03T10:50:15Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Activation Steering with a Feedback Controller [4.609594868699996]
Proportional-Integral-Derivative (PID) Steeringは、大きな言語モデルにおけるアクティベーションステアリングに完全なPIDコントローラを利用する、原則化されたフレームワークである。
PIDステアリングは既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現する。
論文 参考訳(メタデータ) (2025-10-05T18:05:28Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。