論文の概要: Activation Addition: Steering Language Models Without Optimization
- arxiv url: http://arxiv.org/abs/2308.10248v3
- Date: Mon, 13 Nov 2023 14:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 20:52:41.978925
- Title: Activation Addition: Steering Language Models Without Optimization
- Title(参考訳): アクティベーションの追加: 最適化なしのステアリング言語モデル
- Authors: Alexander Matt Turner, Lisa Thiergart, David Udell, Gavin Leech,
Ulisse Mini, Monte MacDiarmid
- Abstract要約: 我々は,アクティベーションエンジニアリングについて検討する。モデル動作を予測可能に変更するために,推論時にアクティベーションを変更する。
我々は OpenWebText と ConceptNet 上の GPT-2 上の ActAdd を実証し,Llama-13B と GPT-J-6B への影響を再現する。
提案手法は,出力の高レベルな特性を推論時間で制御し,オフターゲットトピックのパフォーマンスを保存する。
- 参考スコア(独自算出の注目度): 43.86035726986601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliably controlling the behavior of large language models is a pressing open
problem. Existing methods include supervised finetuning, reinforcement learning
from human feedback, prompt engineering and guided decoding. We instead
investigate activation engineering: modifying activations at inference-time to
predictably alter model behavior. We bias the forward pass with a 'steering
vector' implicitly specified through natural language. Past work learned these
steering vectors; our Activation Addition (ActAdd) method instead computes them
by taking the activation differences which result from pairs of prompts.
We demonstrate ActAdd on GPT-2 on OpenWebText and ConceptNet, and replicate
the effect on Llama-13B and GPT-J-6B. Our approach yields inference-time
control over high-level properties of output & preserves performance on
off-target topics. The method requires far less compute and implementation
effort than finetuning and RLHF, allows for natural language specification by
users, and its overhead scales naturally with model size.
- Abstract(参考訳): 大きな言語モデルの振舞いを確実に制御することは、差し迫ったオープン問題である。
既存の方法には、教師付き微調整、人間フィードバックからの強化学習、迅速なエンジニアリング、ガイド付きデコードなどがある。
モデル動作を予測可能に変更するために、推論時にアクティベーションを変更する。
我々は自然言語によって暗黙的に指定される「ステアリングベクトル」でフォワードパスをバイアスする。
私たちのアクティベーション付加(actadd)メソッドは、代わりに、プロンプトのペアから生じるアクティベーションの違いを取り込んで、それらを計算します。
我々は OpenWebText と ConceptNet 上の GPT-2 上の ActAdd を実証し、Llama-13B と GPT-J-6B への影響を再現する。
提案手法は,高レベルな出力特性を推論時間で制御し,オフターゲットトピックのパフォーマンスを保存する。
このメソッドは、ユーザによる自然言語仕様を可能にする微調整やrlhfよりも計算と実装の労力がはるかに少なく、オーバーヘッドはモデルサイズに合わせて自然にスケールする。
関連論文リスト
- Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。
本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。
実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文 参考訳(メタデータ) (2024-10-16T06:58:49Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Improving Activation Steering in Language Models with Mean-Centring [10.101141087916133]
目標データセットに関連付けられたアクティベーションの平均値と、トレーニングアクティベーションの平均値を減じることで、効果的なステアリングベクトルが得られることがわかった。
また、関数ベクトルを抽出するために平均セントリングを適用し、より効果的に自然言語タスクの実行を顕著なマージンでトリガーする。
論文 参考訳(メタデータ) (2023-12-06T18:27:07Z) - Swim: A General-Purpose, High-Performing, and Efficient Activation
Function for Locomotion Control Tasks [0.2538209532048866]
活性化関数はディープラーニングアルゴリズムの性能において重要な役割を果たす。
特に、スウェーデンのアクティベーション関数はより深いモデルでReLUを上回る傾向にある。
我々はSwishの汎用的で効率的で高性能な代替手段であるSwimを提案する。
論文 参考訳(メタデータ) (2023-03-05T11:04:33Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。