論文の概要: Spectral Editing of Activations for Large Language Model Alignment
- arxiv url: http://arxiv.org/abs/2405.09719v2
- Date: Sat, 25 May 2024 16:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 05:27:58.071655
- Title: Spectral Editing of Activations for Large Language Model Alignment
- Title(参考訳): 大規模言語モデルアライメントのためのアクティベーションのスペクトル編集
- Authors: Yifu Qiu, Zheng Zhao, Yftah Ziser, Anna Korhonen, Edoardo M. Ponti, Shay B. Cohen,
- Abstract要約: 大規模言語モデル(LLM)は、非現実的あるいは偏見のあるコンテンツを生成するなど、望ましくない振る舞いを示すことが多い。
本稿では、入力表現を方向に向けて投影するための新しい推測時間編集手法、すなわち、アクティベーションのスペクトル編集(SEA)を提案する。
- 参考スコア(独自算出の注目度): 36.31656466355112
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) often exhibit undesirable behaviours, such as generating untruthful or biased content. Editing their internal representations has been shown to be effective in mitigating such behaviours on top of the existing alignment methods. We propose a novel inference-time editing method, namely spectral editing of activations (SEA), to project the input representations into directions with maximal covariance with the positive demonstrations (e.g., truthful) while minimising covariance with the negative demonstrations (e.g., hallucinated). We also extend our method to non-linear editing using feature functions. We run extensive experiments on benchmarks concerning truthfulness and bias with six open-source LLMs of different sizes and model families. The results demonstrate the superiority of SEA in effectiveness, generalisation to similar tasks, as well as computation and data efficiency. We also show that SEA editing only has a limited negative impact on other model capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、非現実的あるいは偏見のあるコンテンツを生成するなど、望ましくない振る舞いを示すことが多い。
内部表現の編集は、既存のアライメントメソッドの上にそのような振る舞いを緩和するのに有効であることが示されている。
本稿では, アクティベーションのスペクトル編集(SEA)という新しい推論時間編集手法を提案し, 正の演示と最大共分散の方向へ入力表現を投影し, 負の演示との共分散を最小限に抑えながら, 正の演示と最大共分散の方向へ投影する。
また,特徴関数を用いた非線形編集にも拡張する。
我々は,異なるサイズとモデルファミリの6つのオープンソースLLMを用いて,真偽と偏見に関するベンチマーク実験を行った。
その結果、SEAの有効性、類似したタスクへの一般化、計算とデータ効率の優位性が示された。
また、SEA編集は他のモデル機能に限られた負の影響しか与えないことを示した。
関連論文リスト
- Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
常識推論,自然言語理解,自然言語生成を対象とする3つのベンチマークの評価を通じて,JoLAが既存の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-02-03T09:13:09Z) - Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究では, LLM underlineAment (PSA) アルゴリズムのためのtextitunderlinePrivate underlineSteeringを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
我々は,既存の勾配法を改良し,大規模に効果的に機能させる。
我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators [14.705475420665117]
大きな言語モデル(LLM)は、検証可能な事実に矛盾する応答を生成する傾向がある。
応答幻覚を軽減するために,比較器駆動型復号時間(CDT)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T12:00:31Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Surgical Feature-Space Decomposition of LLMs: Why, When and How? [8.826164604720738]
トランス言語モデルにおける重みと特徴空間の分解の有効性を実験的に検討する。
本稿では, 外科的切除が, 圧縮と言語モデリング性能のトレードオフに関する重要な洞察を与えることを示す。
モデルバイアスに対する低ランク近似の影響について検討する。
論文 参考訳(メタデータ) (2024-05-17T07:34:03Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。