論文の概要: Steering Language Models With Activation Engineering
- arxiv url: http://arxiv.org/abs/2308.10248v5
- Date: Thu, 10 Oct 2024 13:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:25.108141
- Title: Steering Language Models With Activation Engineering
- Title(参考訳): アクティベーションエンジニアリングによる言語モデルのステアリング
- Authors: Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid,
- Abstract要約: アクティベーションエンジニアリングを導入し、モデル出力を制御(またはステア)するためにアクティベーションの推論時間を変更する。
LLaMA-3 や OPT などのモデルを用いて, 負対正の感情変化と解毒を行う。
ActAddは、ターゲット外のタスクのパフォーマンスを維持しながら、高レベルの出力特性(トピックや感情など)を推論時間で制御する。
- 参考スコア(独自算出の注目度): 40.04138190785384
- License:
- Abstract: Prompt engineering and finetuning aim to maximize language model performance on a given metric (like toxicity reduction). However, these methods do not fully elicit a model's capabilities. To reduce this gap, we introduce activation engineering: the inference-time modification of activations in order to control (or steer) model outputs. Specifically, we introduce the Activation Addition (ActAdd) technique, which contrasts the intermediate activations on prompt pairs (such as "Love" versus "Hate") to compute a steering vector (Subramani et al. 2022). By tactically adding in e.g. the "Love" - "Hate" steering vector during the forward pass, we achieve SOTA on negative-to-positive sentiment shift and detoxification using models including LLaMA-3 and OPT. ActAdd yields inference-time control over high-level output properties (like topic and sentiment) while preserving performance on off-target tasks. ActAdd is lightweight: it does not require any machine optimization and works with a single pair of data points, which enables rapid iteration over steering. ActAdd demonstrates the power of activation engineering.
- Abstract(参考訳): プロンプトエンジニアリングと微調整は、与えられたメトリック(毒性の低減など)で言語モデルのパフォーマンスを最大化することを目的としている。
しかし、これらの手法はモデルの能力を十分に引き出すものではない。
このギャップを減らすために、我々はアクティベーションエンジニアリングを導入し、モデル出力を制御する(またはステア)ためにアクティベーションの時間変化を推測する。
具体的には,アクティベーション加算 (ActAdd) 技術を導入し, ステアリングベクトルを計算するために, プロンプトペア(例えば "Love" と "Hate" )の中間活性化を対比する(Subramani et al 2022)。
前方通過時の「愛」-「憎悪」ステアリングベクトルのegを戦術的に加算することにより、LLaMA-3 や OPT などのモデルを用いて負対正の感情シフトと解毒を行う。
ActAddは、ターゲット外のタスクのパフォーマンスを維持しながら、高レベルの出力特性(トピックや感情など)を推論時間で制御する。
ActAddは軽量で、マシンの最適化を一切必要とせず、単一のデータポイントで動作し、ステアリングによる迅速なイテレーションを可能にする。
ActAddはアクティベーションエンジニアリングの力を示しています。
関連論文リスト
- Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。
本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。
実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文 参考訳(メタデータ) (2024-10-16T06:58:49Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Improving Activation Steering in Language Models with Mean-Centring [10.101141087916133]
目標データセットに関連付けられたアクティベーションの平均値と、トレーニングアクティベーションの平均値を減じることで、効果的なステアリングベクトルが得られることがわかった。
また、関数ベクトルを抽出するために平均セントリングを適用し、より効果的に自然言語タスクの実行を顕著なマージンでトリガーする。
論文 参考訳(メタデータ) (2023-12-06T18:27:07Z) - Swim: A General-Purpose, High-Performing, and Efficient Activation
Function for Locomotion Control Tasks [0.2538209532048866]
活性化関数はディープラーニングアルゴリズムの性能において重要な役割を果たす。
特に、スウェーデンのアクティベーション関数はより深いモデルでReLUを上回る傾向にある。
我々はSwishの汎用的で効率的で高性能な代替手段であるSwimを提案する。
論文 参考訳(メタデータ) (2023-03-05T11:04:33Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。