論文の概要: Activation Addition: Steering Language Models Without Optimization
- arxiv url: http://arxiv.org/abs/2308.10248v4
- Date: Tue, 4 Jun 2024 10:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 14:16:48.422188
- Title: Activation Addition: Steering Language Models Without Optimization
- Title(参考訳): アクティベーションの追加:最適化なしで言語モデルをステアリングする
- Authors: Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid,
- Abstract要約: アクティベーションエンジニアリングは、モデル動作を予測可能に変更するために、推論時のアクティベーションを変更する。
ActAddは微調整やRLHFよりも計算と実装の労力がはるかに少ない。
その計算オーバーヘッドは、モデルサイズの増加よりも安定または改善しているように見える。
- 参考スコア(独自算出の注目度): 40.04138190785384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliably controlling the behavior of large language models is a pressing open problem. Existing methods include supervised finetuning, reinforcement learning from human feedback, prompt engineering and guided decoding. We instead investigate activation engineering: modifying activations at inference-time to predictably alter model behavior. We bias the forward pass with a 'steering vector' implicitly specified through natural language. Past work learned these steering vectors; our Activation Addition (ActAdd) method instead computes them by taking activation differences resulting from pairs of prompts. We demonstrate ActAdd on a range of LLMs (LLaMA-3, OPT, GPT-2, and GPT-J), obtaining SOTA on detoxification and negative-to-positive sentiment control. Our approach yields inference-time control over high-level properties of output like topic and sentiment while preserving performance on off-target tasks. ActAdd takes far less compute and implementation effort than finetuning or RLHF, allows users control through natural language, and its computational overhead (as a fraction of inference time) appears stable or improving over increasing model size.
- Abstract(参考訳): 大きな言語モデルの振る舞いを確実に制御することは、非常にオープンな問題である。
既存の手法には、教師付き微調整、人間のフィードバックからの強化学習、迅速なエンジニアリング、ガイド付き復号化などがある。
代わりに、アクティベーションエンジニアリングを調査し、モデル動作を予測可能に変更するために、推論時にアクティベーションを変更する。
我々は、自然言語で暗黙的に指定された'ステアリングベクトル'でフォワードパスをバイアスする。
私たちの Activation Addition (ActAdd) メソッドは、プロンプトのペアによるアクティベーションの違いを計算します。
我々は, LLM (LLaMA-3, OPT, GPT-2, GPT-J) に ActAdd を付加し, 解毒および負対正の感情制御において SOTA を得る。
提案手法は,オフターゲットタスクの性能を維持しつつ,トピックや感情といった高レベルな出力特性を推論時間で制御する。
ActAddは微調整やRLHFよりもはるかに少ない計算と実装の労力を要し、自然言語によるユーザコントロールを可能にします。
関連論文リスト
- Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。
本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。
実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文 参考訳(メタデータ) (2024-10-16T06:58:49Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Improving Activation Steering in Language Models with Mean-Centring [10.101141087916133]
目標データセットに関連付けられたアクティベーションの平均値と、トレーニングアクティベーションの平均値を減じることで、効果的なステアリングベクトルが得られることがわかった。
また、関数ベクトルを抽出するために平均セントリングを適用し、より効果的に自然言語タスクの実行を顕著なマージンでトリガーする。
論文 参考訳(メタデータ) (2023-12-06T18:27:07Z) - Swim: A General-Purpose, High-Performing, and Efficient Activation
Function for Locomotion Control Tasks [0.2538209532048866]
活性化関数はディープラーニングアルゴリズムの性能において重要な役割を果たす。
特に、スウェーデンのアクティベーション関数はより深いモデルでReLUを上回る傾向にある。
我々はSwishの汎用的で効率的で高性能な代替手段であるSwimを提案する。
論文 参考訳(メタデータ) (2023-03-05T11:04:33Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。