論文の概要: Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs
- arxiv url: http://arxiv.org/abs/2505.20309v1
- Date: Thu, 22 May 2025 01:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.156287
- Title: Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs
- Title(参考訳): ガイドジャイアント:LLMの軽量アクティブステアリングのための軽量コントローラ
- Authors: Amr Hegazy, Mostafa Elhoushi, Amr Alanwar,
- Abstract要約: アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
- 参考スコア(独自算出の注目度): 3.2361985831403404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling undesirable Large Language Model (LLM) behaviors, such as the generation of unsafe content or failing to adhere to safety guidelines, often relies on costly fine-tuning. Activation steering provides an alternative for inference-time control, but existing methods typically lack fine-grained, adaptive mechanisms. We introduce a novel approach using a lightweight, trainable controller network integrated during inference. This controller network observes specific intermediate LLM activations and predicts both a global scaling factor and layer-specific weights. The predicted global scaling factor and layer-specific weights then dynamically modulate the intensity of a steering patch, derived from a pre-computed "refusal direction" vector, applied across the LLM's layers during generation. Trained on activations from both harmful and benign prompts, our controller learns to discriminatively apply nuanced, layer-aware interventions, activating steering primarily for harmful inputs. Experiments using safety benchmarks like ToxicChat & In-The-Wild Jailbreak Prompts demonstrate that our weighted steering controller significantly increases refusal rates compared to the base LLM, achieving targeted behavioral modification without altering the original model parameters. Our experiments with Llama-3.1-8B, Llama-3.2-1B & Mistral-7B show our approach outperforms existing methods, presenting an efficient and adaptive method for fine-grained control over LLM behavior at inference time.
- Abstract(参考訳): 安全でないコンテンツの生成や安全ガイドラインの遵守の失敗など、望ましくない大規模言語モデル(LLM)の動作を制御することは、しばしばコストのかかる微調整に依存する。
アクティベーションステアリング(Activation steering)は、推論時間制御の代替を提供するが、既存のメソッドは通常、きめ細かい適応的なメカニズムを欠いている。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
このコントローラネットワークは、特定の中間LDM活性化を観察し、グローバルスケーリング係数と層固有の重みの両方を予測する。
予測されたグローバルスケーリング係数と層固有の重みは、生成中にLCMの層に適用される事前計算された"拒絶方向"ベクトルから導かれるステアリングパッチの強度を動的に変調する。
有害なプロンプトと良心的なプロンプトの両方からのアクティベーションに基づいて、我々のコントローラは、有害な入力に対して主にステアリングを活性化する、ニュアンス付き層認識の介入を差別的に適用することを学ぶ。
ToxicChat や In-The-Wild Jailbreak Prompts などの安全ベンチマークを用いて行った実験では、我々の重み付けステアリングコントローラはベース LLM と比較して拒絶率を大幅に増加させ、元のモデルパラメータを変更することなく、目標となる行動修正を実現する。
Llama-3.1-8B, Llama-3.2-1Bおよび Mistral-7B を用いた実験により, 提案手法は既存の手法よりも優れており, 推定時のLDMの挙動を詳細に制御するための効率的かつ適応的な手法が提案されている。
関連論文リスト
- Patterns and Mechanisms of Contrastive Activation Engineering [0.374490703387131]
CAEは、フレキシブルでタスク固有の振る舞いチューニングの新しいパラダイムを導入する可能性がある。
本研究では,配当・配当・配当設定におけるCAEの性能を分析し,欠点を評価し,その効果的な展開のための包括的ガイドラインの開発に着手する。
論文 参考訳(メタデータ) (2025-05-06T05:15:12Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [73.09848497762667]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Investigating Generalization of One-shot LLM Steering Vectors [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。
得られたベクトルは、複数のモデルにおける安全関連挙動を効果的に媒介する。
論文 参考訳(メタデータ) (2025-02-26T06:13:01Z) - Controlling Large Language Models Through Concept Activation Vectors [30.348768212571255]
本稿では,概念活性化ベクトル(GCAV)を用いたモデル制御フレームワークを提案する。
GCAVはリソース集約的な微調整を必要とせずに正確な制御を保証する。
本フレームワークは, 粒度制御による最先端性能を実現し, 個別試料のステアリング層およびステアリング径の微粒化調整を可能にする。
論文 参考訳(メタデータ) (2025-01-10T07:41:48Z) - Zero-Shot Strategies for Length-Controllable Summarization [56.15356055672189]
大規模言語モデル(LLM)は、特にゼロショット設定において、正確な長さ制御に苦しむ。
本研究では, LLMの長さ制御能力を複数の尺度で評価し, 制御性向上のための実用的手法を提案する。
LLaMA 3 を用いて行った実験では,測定値間の長さの密着性の違いが明らかになり,モデル固有のバイアスが強調された。
論文 参考訳(メタデータ) (2024-12-31T02:53:27Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。