論文の概要: A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO
and Toxicity
- arxiv url: http://arxiv.org/abs/2401.01967v1
- Date: Wed, 3 Jan 2024 20:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:17:05.348823
- Title: A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO
and Toxicity
- Title(参考訳): 配向アルゴリズムの機械論的理解:DPOと毒性を事例として
- Authors: Andrew Lee, Xiaoyan Bai, Itamar Pres, Martin Wattenberg, Jonathan K.
Kummerfeld, Rada Mihalcea
- Abstract要約: 本稿では、一般的なアルゴリズム、直接選好最適化(DPO)、および毒性を減少させるメカニズムについて検討する。
具体的には,まず,事前学習した言語モデルであるGPT2-mediumにおいて毒性がどのように表現され,引き起こされるかを検討する。
得られたモデルが有毒な出力を回避しているかを調べ、事前学習から得られた能力は排除されず、むしろ回避される。
- 参考スコア(独自算出の注目度): 33.235015978211315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While alignment algorithms are now commonly used to tune pre-trained language
models towards a user's preferences, we lack explanations for the underlying
mechanisms in which models become ``aligned'', thus making it difficult to
explain phenomena like jailbreaks. In this work we study a popular algorithm,
direct preference optimization (DPO), and the mechanisms by which it reduces
toxicity. Namely, we first study how toxicity is represented and elicited in a
pre-trained language model, GPT2-medium. We then apply DPO with a carefully
crafted pairwise dataset to reduce toxicity. We examine how the resulting model
averts toxic outputs, and find that capabilities learned from pre-training are
not removed, but rather bypassed. We use this insight to demonstrate a simple
method to un-align the model, reverting it back to its toxic behavior.
- Abstract(参考訳): 現在、アライメントアルゴリズムは、トレーニング済みの言語モデルをユーザの好みに合わせてチューニングするために一般的に使用されているが、モデルが‘アライメント’になるメカニズムの説明が欠けているため、ジェイルブレイクのような現象を説明できない。
本研究では,一般的なアルゴリズムであるdpo(direct preference optimization)と毒性を低減させるメカニズムについて検討した。
具体的には,まず,事前学習した言語モデルであるGPT2-mediumにおいて毒性がどのように表現され,引き起こされるかを検討する。
次に、毒性を低減するために、慎重に作られたペアワイズデータセットをDPOに適用する。
得られたモデルが有毒な出力を回避しているかを調べ、事前学習から得られた能力は排除されず、むしろ回避される。
この洞察を用いて、モデルをアンアライズする簡単な方法を実証し、その有害な振る舞いに戻します。
関連論文リスト
- MiMiC: Minimally Modified Counterfactuals in the Representation Space [76.94255312690892]
言語モデルは、しばしば性バイアスや有害な言語のような望ましくない行動を示す。
本稿では,表現空間における表現的反事実を生成するための新しい介入手法を提案する。
提案手法は多クラス分類におけるバイアス軽減と有害言語の発生抑制に有効であることを示す。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。
我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。
本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文 参考訳(メタデータ) (2023-10-14T12:51:38Z) - Gradient Surgery for One-shot Unlearning on Generative Model [0.989293617504294]
我々は、深層生成モデルに影響を及ぼすデータを取り除くための、単純で効果的なアプローチを導入する。
マルチタスク学習における作業に触発されて,サンプル間の影響の相互作用を規則化する勾配の操作を提案する。
論文 参考訳(メタデータ) (2023-07-10T13:29:23Z) - Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文 参考訳(メタデータ) (2022-02-08T22:10:40Z) - Investigating Bias In Automatic Toxic Comment Detection: An Empirical
Study [1.5609988622100528]
オンラインプラットフォームの増加に伴い、これらのプラットフォーム上でのユーザーエンゲージメントは、コメントやリアクションを通じて急増している。
このような文章によるコメントの大部分は、聴衆に対して虐待的で無礼で侮辱的です。
機械学習システムがプラットフォームに現れるコメントをチェックするために、トレーニングデータに存在するバイアスが分類器に渡され、クラス、宗教、性別のセットに対する差別につながる。
論文 参考訳(メタデータ) (2021-08-14T08:24:13Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Explaining Chemical Toxicity using Missing Features [12.659531194569078]
機械学習を用いた化学毒性予測は、反復的な動物実験とヒト試験を減らし、コストと時間を節約するために、医薬品開発において重要である。
計算毒性学モデルの予測は機械的に説明可能であることが強く推奨されている。
本稿では,最近開発されたコントラスト的説明法 (CEM) を適用し,なぜ化学物質や分子が有毒であるか否かの理由を説明する。
論文 参考訳(メタデータ) (2020-09-23T23:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。