論文の概要: Refusal in LLMs is an Affine Function
- arxiv url: http://arxiv.org/abs/2411.09003v2
- Date: Tue, 19 Nov 2024 04:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:08.340381
- Title: Refusal in LLMs is an Affine Function
- Title(参考訳): LLMの拒絶はアフィン関数である
- Authors: Thomas Marshall, Adam Scherlis, Nora Belrose,
- Abstract要約: 本稿では,アフィン概念編集 (ACE) を言語モデルの振る舞いを制御するためのアプローチとして提案する。
ACEはアフィン部分空間の投影とアクティベーションの追加を組み合わせて、モデルの拒絶反応を確実に制御する。
実験の結果、ACEは既存の手法よりもモデル動作をより正確に制御できることがわかった。
- 参考スコア(独自算出の注目度): 1.722461331472526
- License:
- Abstract: We propose affine concept editing (ACE) as an approach for steering language models' behavior by intervening directly in activations. We begin with an affine decomposition of model activation vectors and show that prior methods for steering model behavior correspond to subsets of terms of this decomposition. We then provide a derivation of ACE and use it to control refusal behavior on ten different models, including Llama 3 70B. ACE combines affine subspace projection and activation addition to reliably control the model's refusal responses across prompt types. We evaluate the results using LLM-based scoring on a collection of harmful and harmless prompts. Our experiments demonstrate that ACE consistently achieves more precise control over model behavior than existing methods and generalizes to models where directional ablation via affine subspace projection alone produces incoherent outputs. Code for reproducing our results is available at https://github.com/EleutherAI/steering-llama3 .
- Abstract(参考訳): 本稿では,アクティベーションに直接介入することで,言語モデルの動作を制御するためのアプローチとして,アフィン概念編集(ACE)を提案する。
モデルアクティベーションベクトルのアフィン分解から始まり、モデルの振る舞いを操る事前の方法は、この分解の項のサブセットに対応することを示す。
次に、ACEの導出を行い、Llama 3 70Bを含む10種類のモデルの拒絶動作を制御する。
ACEはアフィン部分空間のプロジェクションとアクティベーションの追加を組み合わせて、プロンプトタイプ間でモデルの拒絶応答を確実に制御する。
有害かつ無害なプロンプトの収集に対して,LSMを用いたスコアリングによる評価を行った。
実験により、ACEは既存の手法よりもモデル挙動のより正確な制御を一貫して達成し、アフィン部分空間プロジェクションのみによる指向性アブレーションが不整合出力を生成するモデルに一般化することを示した。
結果の再現コードはhttps://github.com/EleutherAI/steering-llama3.comで公開されている。
関連論文リスト
- MASALA: Model-Agnostic Surrogate Explanations by Locality Adaptation [3.587367153279351]
既存のローカル説明可能なAI(XAI)メソッドは、与えられた入力インスタンスの近傍にある入力空間の領域を選択し、より単純で解釈可能な代理モデルを用いてモデルの振る舞いを近似する。
そこで本研究では,各インスタンスごとの衝突モデル行動の適切な局所領域を自動決定する手法であるMASALAを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:26:45Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Fusing Dictionary Learning and Support Vector Machines for Unsupervised Anomaly Detection [1.5999407512883508]
本稿では,OC-SVMとDL残差関数を1つの合成対象に統一する新たな異常検出モデルを提案する。
両方の目的をカーネル関数の使用を可能にするより一般的な設定に拡張する。
論文 参考訳(メタデータ) (2024-04-05T12:41:53Z) - Minusformer: Improving Time Series Forecasting by Progressively Learning Residuals [14.741951369068877]
ユビキタス時系列(TS)予測モデルでは,過度なオーバーフィッティングが生じる傾向にある。
本稿では,深層的なブースティング・アンサンブル学習手法である二重ストリーム・サブトラクション機構を提案する。
提案手法は既存の最先端手法よりも優れており,各データセットの平均性能は11.9%向上した。
論文 参考訳(メタデータ) (2024-02-04T03:54:31Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Causal Disentangled Variational Auto-Encoder for Preference
Understanding in Recommendation [50.93536377097659]
本稿では,コメンテータシステムにおける対話データから因果不整合表現を学習するためのCaD-VAE(Causal Disentangled Variational Auto-Encoder)を提案する。
この手法は構造因果モデルを用いて、潜在因子間の因果関係を記述する因果表現を生成する。
論文 参考訳(メタデータ) (2023-04-17T00:10:56Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Robust Representation via Dynamic Feature Aggregation [44.927408735490005]
ディープ畳み込みニューラルネットワーク(CNN)ベースのモデルは、敵の攻撃に対して脆弱である。
本稿では,新しい正規化により埋め込み空間を圧縮する動的特徴集約法を提案する。
CIFAR-10における攻撃法の平均精度は56.91%である。
論文 参考訳(メタデータ) (2022-05-16T06:22:15Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。