Fugu-MT 論文翻訳(概要): A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

論文の概要: A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

arxiv url: http://arxiv.org/abs/2401.01967v1
Date: Wed, 3 Jan 2024 20:26:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-05 16:17:05.348823
Title: A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity
Title（参考訳）: 配向アルゴリズムの機械論的理解:DPOと毒性を事例として
Authors: Andrew Lee, Xiaoyan Bai, Itamar Pres, Martin Wattenberg, Jonathan K. Kummerfeld, Rada Mihalcea
Abstract要約: 本稿では、一般的なアルゴリズム、直接選好最適化(DPO)、および毒性を減少させるメカニズムについて検討する。具体的には,まず,事前学習した言語モデルであるGPT2-mediumにおいて毒性がどのように表現され,引き起こされるかを検討する。得られたモデルが有毒な出力を回避しているかを調べ、事前学習から得られた能力は排除されず、むしろ回避される。
参考スコア（独自算出の注目度）: 33.235015978211315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While alignment algorithms are now commonly used to tune pre-trained language models towards a user's preferences, we lack explanations for the underlying mechanisms in which models become ``aligned'', thus making it difficult to explain phenomena like jailbreaks. In this work we study a popular algorithm, direct preference optimization (DPO), and the mechanisms by which it reduces toxicity. Namely, we first study how toxicity is represented and elicited in a pre-trained language model, GPT2-medium. We then apply DPO with a carefully crafted pairwise dataset to reduce toxicity. We examine how the resulting model averts toxic outputs, and find that capabilities learned from pre-training are not removed, but rather bypassed. We use this insight to demonstrate a simple method to un-align the model, reverting it back to its toxic behavior.
Abstract（参考訳）: 現在、アライメントアルゴリズムは、トレーニング済みの言語モデルをユーザの好みに合わせてチューニングするために一般的に使用されているが、モデルが‘アライメント’になるメカニズムの説明が欠けているため、ジェイルブレイクのような現象を説明できない。本研究では,一般的なアルゴリズムであるdpo(direct preference optimization)と毒性を低減させるメカニズムについて検討した。具体的には,まず,事前学習した言語モデルであるGPT2-mediumにおいて毒性がどのように表現され,引き起こされるかを検討する。次に、毒性を低減するために、慎重に作られたペアワイズデータセットをDPOに適用する。得られたモデルが有毒な出力を回避しているかを調べ、事前学習から得られた能力は排除されず、むしろ回避される。この洞察を用いて、モデルをアンアライズする簡単な方法を実証し、その有害な振る舞いに戻します。

関連論文リスト

IF-GUIDE: Influence Function-Guided Detoxification of LLMs [53.051109450536885]
本研究では,大規模言語モデルにおける有害な行動の出現に,トレーニングデータがどのように寄与するかを検討する。本稿では,任意のトレーニングデータ中の有害トークンを識別し,トレーニング中の影響を抑制するために,影響関数を利用する$proactiveアプローチを提案する。本稿では,有毒な訓練資料の選択手法や学習目標などとともに,学習データから有毒度をモデル化するためのトークンレベルの属性を測定する新しい適応法を提案する。
論文参考訳（メタデータ） (2025-06-02T15:32:36Z)
DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文参考訳（メタデータ） (2025-02-25T16:44:10Z)
Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文参考訳（メタデータ） (2024-11-23T19:10:32Z)
How Does DPO Reduce Toxicity? A Mechanistic Neuron-Level Analysis [1.6274584204099996]
安全微調整アルゴリズムは言語モデルにおける有害な出力を減らすが、そのメカニズムは未解明のままである。毒性ニューロンは、モデル全体でのDPOの効果の2.5%から24%に過ぎなかった。そこで我々はDPOを模倣した活性化編集法を開発した。
論文参考訳（メタデータ） (2024-11-10T11:07:34Z)
Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文参考訳（メタデータ） (2024-10-31T20:05:51Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Model Editing as a Robust and Denoised variant of DPO: A Case Study on Toxicity [6.786565820048478]
本稿では,無調音アライメントの代替であるProFSを導入し,毒性低減のユースケースでその効果を実証する。 ProFSはモデルパラメータ空間内の有毒な部分空間を特定し、検出された部分空間を投影することでモデル毒性を低減する。我々は, ProFS が DPO よりもサンプリング効率が高いことを示し,さらにノイズの多いデータに対するロバスト性を示す。
論文参考訳（メタデータ） (2024-05-22T20:08:48Z)
Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文参考訳（メタデータ） (2024-02-15T00:20:30Z)
Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文参考訳（メタデータ） (2023-10-14T12:51:38Z)
Gradient Surgery for One-shot Unlearning on Generative Model [0.989293617504294]
我々は、深層生成モデルに影響を及ぼすデータを取り除くための、単純で効果的なアプローチを導入する。マルチタスク学習における作業に触発されて,サンプル間の影響の相互作用を規則化する勾配の操作を提案する。
論文参考訳（メタデータ） (2023-07-10T13:29:23Z)
Investigating Bias In Automatic Toxic Comment Detection: An Empirical Study [1.5609988622100528]
オンラインプラットフォームの増加に伴い、これらのプラットフォーム上でのユーザーエンゲージメントは、コメントやリアクションを通じて急増している。このような文章によるコメントの大部分は、聴衆に対して虐待的で無礼で侮辱的です。機械学習システムがプラットフォームに現れるコメントをチェックするために、トレーニングデータに存在するバイアスが分類器に渡され、クラス、宗教、性別のセットに対する差別につながる。
論文参考訳（メタデータ） (2021-08-14T08:24:13Z)
Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文参考訳（メタデータ） (2021-07-05T12:44:39Z)
Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文参考訳（メタデータ） (2021-01-29T22:03:17Z)
Explaining Chemical Toxicity using Missing Features [12.659531194569078]
機械学習を用いた化学毒性予測は、反復的な動物実験とヒト試験を減らし、コストと時間を節約するために、医薬品開発において重要である。計算毒性学モデルの予測は機械的に説明可能であることが強く推奨されている。本稿では,最近開発されたコントラスト的説明法 (CEM) を適用し,なぜ化学物質や分子が有毒であるか否かの理由を説明する。
論文参考訳（メタデータ） (2020-09-23T23:34:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。