Fugu-MT 論文翻訳(概要): Refusal in LLMs is an Affine Function

論文の概要: Refusal in LLMs is an Affine Function

arxiv url: http://arxiv.org/abs/2411.09003v1
Date: Wed, 13 Nov 2024 20:12:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.485916
Title: Refusal in LLMs is an Affine Function
Title（参考訳）: LLMの拒絶はアフィン関数である
Authors: Thomas Marshall, Adam Scherlis, Nora Belrose,
Abstract要約: 本稿では,アクティベーションに直接介入することで,言語モデルの動作を制御するためのアプローチとして,アフィン概念編集(ACE)を提案する。 ACEはモデル挙動のより正確な制御を一貫して達成し、アフィン部分空間射影のみによる指向性アブレーションが不整合出力を生成するモデルに一般化する。
参考スコア（独自算出の注目度）: 1.722461331472526
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose affine concept editing (ACE) as an approach for steering language models' behavior by intervening directly in activations. We begin with an affine decomposition of model activation vectors and show that prior methods for steering model behavior correspond to subsets of terms of this decomposition. We then provide a derivation of ACE and test it on refusal using Llama 3 8B and Hermes Eagle RWKV v5. ACE ultimately combines affine subspace projection and activation addition to reliably control the model's refusal responses across prompt types. We evaluate the results using LLM-based scoring on a collection of harmful and harmless prompts. Our experiments demonstrate that ACE consistently achieves more precise control over model behavior and generalizes to models where directional ablation via affine subspace projection alone produces incoherent outputs. Code for reproducing our results is available at https://github.com/EleutherAI/steering-llama3 .
Abstract（参考訳）: 本稿では,アクティベーションに直接介入することで,言語モデルの動作を制御するためのアプローチとして,アフィン概念編集(ACE)を提案する。モデルアクティベーションベクトルのアフィン分解から始まり、モデルの振る舞いを操る事前の方法は、この分解の項のサブセットに対応することを示す。次に、ACEの導出を行い、Llama 3 8BとHermes Eagle RWKV v5を用いて拒絶試験を行う。 ACEは最終的にアフィン部分空間のプロジェクションとアクティベーションの追加を組み合わせて、プロンプト型間でモデルの拒絶応答を確実に制御する。有害かつ無害なプロンプトの収集に対して,LSMを用いたスコアリングによる評価を行った。実験により,ACEはモデル挙動のより正確な制御を一貫して達成し,アフィン部分空間射影のみによる指向性アブレーションが非コヒーレントな出力を生成するモデルに一般化することを示した。結果の再現コードはhttps://github.com/EleutherAI/steering-llama3.comで公開されている。

関連論文リスト

GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文参考訳（メタデータ） (2025-07-24T02:34:13Z)
Learning Distribution-Wise Control in Representation Space for Language Models [7.756342860929851]
学習可能な介入は、概念のサブスペースにポイントワイズ制御を適用することを目的としており、ハイレベルな振る舞いを変更するのに有効であることが証明されている。我々は、このアプローチを分布レベルにまで拡張し、モデルがポイントワイズ変換だけでなく、概念部分空間の周辺領域も学習できるようにする。
論文参考訳（メタデータ） (2025-06-07T06:52:58Z)
ExpertSteer: Intervening in LLMs through Expert Knowledge [71.12193680015622]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。 3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文参考訳（メタデータ） (2025-05-18T08:55:46Z)
Steering Risk Preferences in Large Language Models by Aligning Behavioral and Neural Representations [4.029252551781513]
ステアリングベクトルを明らかにするための原理的アプローチを提案する。我々は,大規模言語モデルから潜在リスクの選好を抽出することに注力する。得られた操舵ベクトルが目標動作に合わせてLLM出力を正常かつ確実に変調することを示す。
論文参考訳（メタデータ） (2025-05-16T18:23:10Z)
Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文参考訳（メタデータ） (2025-04-30T05:26:51Z)
Steering Large Language Model Activations in Sparse Spaces [21.55545768931058]
AIアライメントにおける重要な課題は、テスト時に望ましい振る舞いに従うために、大きな言語モデル(LLM)を導くことである。スパース・アクティベーション・ステアリング(SAS)はスパース・オートエンコーダ(SAE)を利用してスパース空間のステアリングを行う手法である。
論文参考訳（メタデータ） (2025-02-28T20:43:45Z)
Investigating Generalization of One-shot LLM Steering Vectors [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。得られたベクトルは、複数のモデルにおける安全関連挙動を効果的に媒介する。
論文参考訳（メタデータ） (2025-02-26T06:13:01Z)
Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文参考訳（メタデータ） (2025-02-11T19:24:09Z)
Probe-Free Low-Rank Activation Intervention [26.502232859901167]
隠れたアクティベーションを編集する推論時間の介入は、望ましい世代に向けてLMを操る有望な結果を示している。本稿では,特定のアクティベーション層内のすべての注意点に対するプローブフリー干渉法FLORAINを提案する。
論文参考訳（メタデータ） (2025-02-06T13:03:05Z)
MASALA: Model-Agnostic Surrogate Explanations by Locality Adaptation [3.587367153279351]
既存のローカル説明可能なAI(XAI)メソッドは、与えられた入力インスタンスの近傍にある入力空間の領域を選択し、より単純で解釈可能な代理モデルを用いてモデルの振る舞いを近似する。そこで本研究では,各インスタンスごとの衝突モデル行動の適切な局所領域を自動決定する手法であるMASALAを提案する。
論文参考訳（メタデータ） (2024-08-19T15:26:45Z)
Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。 CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文参考訳（メタデータ） (2023-12-09T04:40:46Z)
Unsupervised Discovery of Interpretable Directions in h-space of Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文参考訳（メタデータ） (2023-10-15T18:44:30Z)
Causal Disentangled Variational Auto-Encoder for Preference Understanding in Recommendation [50.93536377097659]
本稿では,コメンテータシステムにおける対話データから因果不整合表現を学習するためのCaD-VAE(Causal Disentangled Variational Auto-Encoder)を提案する。この手法は構造因果モデルを用いて、潜在因子間の因果関係を記述する因果表現を生成する。
論文参考訳（メタデータ） (2023-04-17T00:10:56Z)
Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文参考訳（メタデータ） (2023-03-31T10:53:24Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文参考訳（メタデータ） (2023-01-20T15:28:09Z)
Lifted Model Checking for Relational MDPs [12.574454799055026]
pCTL-REBELは、リレーショナルMDP上のpCTL特性を検証するためのリフトモデルチェック手法である。 pCTLモデル検査手法は, 無限領域であっても, リレーショナルMDPに対して決定可能であることを示す。
論文参考訳（メタデータ） (2021-06-22T13:12:36Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
Data Driven Control with Learned Dynamics: Model-Based versus Model-Free Approach [0.0]
モデルベースとモデルフリーの2種類のデータ駆動制御手法を比較した。最近提案されたDeep Koopman Representation for Control (DKRC)は、未知の非線形力学系を高次元線形系にマッピングするためにディープニューラルネットワークを利用する。もう1つは、アクター批判アーキテクチャに基づく古典的なモデルフリー制御手法である、Deep Deterministic Policy Gradient (DDPG)は、様々な力学系で有効であることが証明されている。
論文参考訳（メタデータ） (2020-06-16T22:18:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。