論文の概要: A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO
and Toxicity
- arxiv url: http://arxiv.org/abs/2401.01967v1
- Date: Wed, 3 Jan 2024 20:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:17:05.348823
- Title: A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO
and Toxicity
- Title(参考訳): 配向アルゴリズムの機械論的理解:DPOと毒性を事例として
- Authors: Andrew Lee, Xiaoyan Bai, Itamar Pres, Martin Wattenberg, Jonathan K.
Kummerfeld, Rada Mihalcea
- Abstract要約: 本稿では、一般的なアルゴリズム、直接選好最適化(DPO)、および毒性を減少させるメカニズムについて検討する。
具体的には,まず,事前学習した言語モデルであるGPT2-mediumにおいて毒性がどのように表現され,引き起こされるかを検討する。
得られたモデルが有毒な出力を回避しているかを調べ、事前学習から得られた能力は排除されず、むしろ回避される。
- 参考スコア(独自算出の注目度): 33.235015978211315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While alignment algorithms are now commonly used to tune pre-trained language
models towards a user's preferences, we lack explanations for the underlying
mechanisms in which models become ``aligned'', thus making it difficult to
explain phenomena like jailbreaks. In this work we study a popular algorithm,
direct preference optimization (DPO), and the mechanisms by which it reduces
toxicity. Namely, we first study how toxicity is represented and elicited in a
pre-trained language model, GPT2-medium. We then apply DPO with a carefully
crafted pairwise dataset to reduce toxicity. We examine how the resulting model
averts toxic outputs, and find that capabilities learned from pre-training are
not removed, but rather bypassed. We use this insight to demonstrate a simple
method to un-align the model, reverting it back to its toxic behavior.
- Abstract(参考訳): 現在、アライメントアルゴリズムは、トレーニング済みの言語モデルをユーザの好みに合わせてチューニングするために一般的に使用されているが、モデルが‘アライメント’になるメカニズムの説明が欠けているため、ジェイルブレイクのような現象を説明できない。
本研究では,一般的なアルゴリズムであるdpo(direct preference optimization)と毒性を低減させるメカニズムについて検討した。
具体的には,まず,事前学習した言語モデルであるGPT2-mediumにおいて毒性がどのように表現され,引き起こされるかを検討する。
次に、毒性を低減するために、慎重に作られたペアワイズデータセットをDPOに適用する。
得られたモデルが有毒な出力を回避しているかを調べ、事前学習から得られた能力は排除されず、むしろ回避される。
この洞察を用いて、モデルをアンアライズする簡単な方法を実証し、その有害な振る舞いに戻します。
関連論文リスト
- Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Model Editing as a Robust and Denoised variant of DPO: A Case Study on Toxicity [6.786565820048478]
本稿では,無調音アライメントの代替であるProFSを導入し,毒性低減のユースケースでその効果を実証する。
ProFSはモデルパラメータ空間内の有毒な部分空間を特定し、検出された部分空間を投影することでモデル毒性を低減する。
我々は, ProFS が DPO よりもサンプリング効率が高いことを示し,さらにノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-22T20:08:48Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。
我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。
本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文 参考訳(メタデータ) (2023-10-14T12:51:38Z) - Gradient Surgery for One-shot Unlearning on Generative Model [0.989293617504294]
我々は、深層生成モデルに影響を及ぼすデータを取り除くための、単純で効果的なアプローチを導入する。
マルチタスク学習における作業に触発されて,サンプル間の影響の相互作用を規則化する勾配の操作を提案する。
論文 参考訳(メタデータ) (2023-07-10T13:29:23Z) - Investigating Bias In Automatic Toxic Comment Detection: An Empirical
Study [1.5609988622100528]
オンラインプラットフォームの増加に伴い、これらのプラットフォーム上でのユーザーエンゲージメントは、コメントやリアクションを通じて急増している。
このような文章によるコメントの大部分は、聴衆に対して虐待的で無礼で侮辱的です。
機械学習システムがプラットフォームに現れるコメントをチェックするために、トレーニングデータに存在するバイアスが分類器に渡され、クラス、宗教、性別のセットに対する差別につながる。
論文 参考訳(メタデータ) (2021-08-14T08:24:13Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Explaining Chemical Toxicity using Missing Features [12.659531194569078]
機械学習を用いた化学毒性予測は、反復的な動物実験とヒト試験を減らし、コストと時間を節約するために、医薬品開発において重要である。
計算毒性学モデルの予測は機械的に説明可能であることが強く推奨されている。
本稿では,最近開発されたコントラスト的説明法 (CEM) を適用し,なぜ化学物質や分子が有毒であるか否かの理由を説明する。
論文 参考訳(メタデータ) (2020-09-23T23:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。