論文の概要: Activation Addition: Steering Language Models Without Optimization
- arxiv url: http://arxiv.org/abs/2308.10248v2
- Date: Fri, 1 Sep 2023 17:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 16:12:19.058003
- Title: Activation Addition: Steering Language Models Without Optimization
- Title(参考訳): アクティベーションの追加: 最適化なしのステアリング言語モデル
- Authors: Alexander Matt Turner, Lisa Thiergart, David Udell, Gavin Leech,
Ulisse Mini, Monte MacDiarmid
- Abstract要約: 我々は,アクティベーションエンジニアリングについて検討する。モデル動作を予測可能に変更するために,推論時にアクティベーションを変更する。
我々の推論時間アプローチは、出力の高レベルな特性を制御し、ターゲット外のモデル性能を保ちます。
微調整よりもはるかに少ない計算と実装の労力で、ユーザは自然言語の仕様を提供し、そのオーバーヘッドはモデルサイズで自然にスケールできる。
- 参考スコア(独自算出の注目度): 43.86035726986601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliably controlling the behavior of large language models is a pressing open
problem. Existing methods include supervised finetuning, reinforcement learning
from human feedback, prompt engineering, and guided decoding. We instead
investigate activation engineering: modifying activations at inference time to
predictably alter model behavior. In particular, we bias the forward pass with
an added 'steering vector' implicitly specified through natural language.
Unlike past work which learned these steering vectors, our Activation
Addition (ActAdd) method computes them by taking the activation differences
that result from pairs of prompts. We demonstrate ActAdd on GPT-2 on
OpenWebText and ConceptNet. Our inference-time approach yields control over
high-level properties of output and preserves off-target model performance. It
involves far less compute and implementation effort than finetuning, allows
users to provide natural language specifications, and its overhead scales
naturally with model size.
- Abstract(参考訳): 大きな言語モデルの振舞いを確実に制御することは、差し迫ったオープン問題である。
既存の手法には、教師付き微調整、人間のフィードバックからの強化学習、プロンプトエンジニアリング、ガイド付き復号化などがある。
モデル動作を予測可能に変更するために、推論時にアクティベーションを変更する。
特に、自然言語で暗黙的に指定された「ステアリングベクトル」を追加して前方通過をバイアスする。
これらのステアリングベクトルを学習した過去の作業とは異なり、アクティベーション加算(ActAdd)メソッドは、一連のプロンプトから得られるアクティベーション差を計算します。
我々は OpenWebText と ConceptNet 上で GPT-2 上の ActAdd を実証する。
我々の推論時間アプローチは出力の高レベルな特性を制御し、ターゲット外のモデル性能を保ちます。
微調整よりもはるかに少ない計算と実装の労力で、ユーザは自然言語の仕様を提供し、そのオーバーヘッドはモデルサイズで自然にスケールできる。
関連論文リスト
- Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Steering Llama 2 via Contrastive Activation Addition [43.63161269312073]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Improving Activation Steering in Language Models with Mean-Centring [10.101141087916133]
目標データセットに関連付けられたアクティベーションの平均値と、トレーニングアクティベーションの平均値を減じることで、効果的なステアリングベクトルが得られることがわかった。
また、関数ベクトルを抽出するために平均セントリングを適用し、より効果的に自然言語タスクの実行を顕著なマージンでトリガーする。
論文 参考訳(メタデータ) (2023-12-06T18:27:07Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Towards Neural Programming Interfaces [6.88204255655161]
自然言語生成制御の問題を,事前学習した言語モデルとインタフェースする学習の課題として再演した。
特殊ニューラルネットワークは、事前学習されたモデルの隠れたアクティベーションを操作することにより、事前学習された言語モデルとのインタフェースを学習する。
元のモデルの重みに恒久的な変更は行われず、新しいタスクのためにトレーニング済みのモデルを再利用することができます。
論文 参考訳(メタデータ) (2020-12-10T21:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。