論文の概要: Steering Llama 2 via Contrastive Activation Addition
- arxiv url: http://arxiv.org/abs/2312.06681v2
- Date: Wed, 27 Dec 2023 05:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:20:48.049021
- Title: Steering Llama 2 via Contrastive Activation Addition
- Title(参考訳): コントラスト活性化付加による操舵ラマ2
- Authors: Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger,
Alexander Matt Turner
- Abstract要約: コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過時のアクティベーションを変更することで言語モデルをステアリングする革新的な手法である。
Llama 2 ChatにおけるCAAの有効性を,複数選択行動問合せデータセットとオープンエンド生成タスクを用いて評価した。
- 参考スコア(独自算出の注目度): 43.63161269312073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Contrastive Activation Addition (CAA), an innovative method for
steering language models by modifying activations during their forward passes.
CAA computes ``steering vectors'' by averaging the difference in residual
stream activations between pairs of positive and negative examples of a
particular behavior such as factual versus hallucinatory responses. During
inference, these steering vectors are added at all token positions after the
user's prompt with either a positive or negative coefficient, allowing precise
control over the degree of the targeted behavior. We evaluate CAA's
effectiveness on Llama 2 Chat using both multiple-choice behavioral question
datasets and open-ended generation tasks. We demonstrate that CAA significantly
alters model behavior, outperforms traditional methods like finetuning and
few-shot prompting, and minimally reduces capabilities. Moreover, by employing
various activation space interpretation methods, we gain deeper insights into
CAA's mechanisms. CAA both accurately steers model outputs and also sheds light
on how high-level concepts are represented in Large Language Models (LLMs).
- Abstract(参考訳): 本稿では,前方通過時のアクティベーションを変更することで,言語モデルを操る革新的な手法であるContrastive Activation Addition (CAA)を紹介する。
CAAは、事実と幻覚反応のような特定の行動の肯定的および否定的な例のペア間の残ストリームアクティベーションの差を平均化することにより、 `steering vectors'' を計算する。
推論中、これらのステアリングベクトルは、ユーザのプロンプト後のすべてのトークン位置に正あるいは負の係数で加算され、ターゲットの行動の度合いを正確に制御できる。
Llama 2 ChatにおけるCAAの有効性を,複数選択行動質問データセットとオープンエンド生成タスクを用いて評価した。
私たちはCAAがモデル動作を著しく変更し、微調整や数発のプロンプトといった従来の手法より優れ、最小限の機能を減らすことを示した。
さらに,様々なアクティベーション空間解釈手法を用いて,CAAのメカニズムについて深い知見を得る。
CAAは、モデル出力を正確に管理し、また、Large Language Models (LLMs) でどのようにハイレベルな概念が表現されるかを明らかにします。
関連論文リスト
- Fusing Dictionary Learning and Support Vector Machines for Unsupervised Anomaly Detection [1.5999407512883508]
本稿では,OC-SVMとDL残差関数を1つの合成対象に統一する新たな異常検出モデルを提案する。
両方の目的をカーネル関数の使用を可能にするより一般的な設定に拡張する。
論文 参考訳(メタデータ) (2024-04-05T12:41:53Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - Activation Addition: Steering Language Models Without Optimization [43.86035726986601]
我々は,アクティベーションエンジニアリングについて検討する。モデル動作を予測可能に変更するために,推論時にアクティベーションを変更する。
我々は OpenWebText と ConceptNet 上の GPT-2 上の ActAdd を実証し,Llama-13B と GPT-J-6B への影響を再現する。
提案手法は,出力の高レベルな特性を推論時間で制御し,オフターゲットトピックのパフォーマンスを保存する。
論文 参考訳(メタデータ) (2023-08-20T12:21:05Z) - Feature Separation and Recalibration for Adversarial Robustness [18.975320671203132]
本稿では,特徴分離と再校正という手法を提案する。
分離と再校正を通じて、より堅牢な機能マップのために、悪意のある非不正なアクティベーションを再校正する。
これにより、計算オーバーヘッドが小さいため、既存の敵の訓練手法の堅牢性は最大8.57%向上する。
論文 参考訳(メタデータ) (2023-03-24T07:43:57Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - ContrastVAE: Contrastive Variational AutoEncoder for Sequential
Recommendation [58.02630582309427]
本稿では,コントラスト学習を変分オートエンコーダの枠組みに組み込むことを提案する。
ContrastELBOは,従来のシングルビューELBOを2ビューケースに拡張した,新しいトレーニング目標である。
また、コントラストELBOの具体化として、コントラスト正規化を備えた2分岐VAEモデルであるContrastVAEを提案する。
論文 参考訳(メタデータ) (2022-08-27T03:35:00Z) - AAVAE: Augmentation-Augmented Variational Autoencoders [43.73699420145321]
本稿では,自動符号化に基づく自己教師型学習における第3のアプローチであるAugmentation-augmented variational autoencoders (AAVAE)を紹介する。
画像分類において提案したAAVAEを,最近のコントラスト学習アルゴリズムや非コントラスト学習アルゴリズムと同様に実証的に評価した。
論文 参考訳(メタデータ) (2021-07-26T17:04:30Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Dual Adversarial Auto-Encoders for Clustering [152.84443014554745]
教師なしクラスタリングのためのDual-AAE(Dual-AAE)を提案する。
Dual-AAEの目的関数に対する変分推論を行うことで,一対のオートエンコーダをトレーニングすることで最適化可能な新たな再構成損失を導出する。
4つのベンチマーク実験により、Dual-AAEは最先端のクラスタリング手法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-23T13:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。