論文の概要: DeTox: Toxic Subspace Projection for Model Editing
- arxiv url: http://arxiv.org/abs/2405.13967v1
- Date: Wed, 22 May 2024 20:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 20:14:01.827661
- Title: DeTox: Toxic Subspace Projection for Model Editing
- Title(参考訳): DeTox: モデル編集のための Toxic Subspace Projection
- Authors: Rheeya Uppaal, Apratim De, Yiting He, Yiquao Zhong, Junjie Hu,
- Abstract要約: 我々は,無調律アライメント(DeTox)を導入し,毒性低減のユースケースで有効性を示す。
DeToxは、モデルパラメータ空間内の有毒な部分空間を識別し、検出された部分空間を投影することでモデル毒性を低減する、サンプル効率のよいモデル編集アプローチである。
DeTox は DPO よりもサンプリング効率が高く,さらにノイズの多いデータに対するロバスト性を示す。
- 参考スコア(独自算出の注目度): 6.786565820048478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent alignment algorithms such as direct preference optimization (DPO) have been developed to improve the safety of large language models (LLMs) by training these models to match human behaviors exemplified by preference data. However, these methods are both computationally intensive and lacking in controllability and transparency, making them prone to jailbreaking and inhibiting their widespread use. Furthermore, these tuning-based methods require large-scale preference data for training and are susceptible to noisy preference data. In this paper, we introduce a tuning-free alignment alternative (DeTox) and demonstrate its effectiveness under the use case of toxicity reduction. Grounded on theory from factor analysis, DeTox is a sample-efficient model editing approach that identifies a toxic subspace in the model parameter space and reduces model toxicity by projecting away the detected subspace. The toxic sub-space is identified by extracting preference data embeddings from the language model, and removing non-toxic information from these embeddings. We show that DeTox is more sample-efficient than DPO, further showcasing greater robustness to noisy data. Finally, we establish both theoretical and empirical connections between DeTox and DPO, showing that DeTox can be interpreted as a denoised version of a single DPO step.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の安全性向上のために,嗜好データに代表される人間の行動に適合する手法として,直接選好最適化(DPO)などのアライメントアルゴリズムが開発されている。
しかし、これらの手法はどちらも計算集約的であり、制御性と透明性が欠如しているため、脱獄や広範囲の使用を阻害する傾向がある。
さらに、これらのチューニングベースの手法は、トレーニングのための大規模な嗜好データを必要とし、ノイズの多い選好データに影響を受けやすい。
本稿では,無調律アライメント(DeTox)を導入し,その有効性を示す。
DeToxはモデルパラメータ空間内の有毒な部分空間を識別し、検出された部分空間を投影することでモデル毒性を低減する、サンプル効率のよいモデル編集手法である。
言語モデルから好みデータ埋め込みを抽出し、これらの埋め込みから有害でない情報を除去することにより、有害な部分空間を同定する。
DeTox は DPO よりもサンプリング効率が高く,さらにノイズの多いデータに対するロバスト性を示す。
最後に、DeTox と DPO の間の理論的および実証的な接続を確立することにより、DeTox が単一の DPO ステップの復号版として解釈可能であることを示す。
関連論文リスト
- Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Semi-supervised Regression Analysis with Model Misspecification and High-dimensional Data [8.619243141968886]
条件付き平均モデルにおける回帰係数を推定するための推論フレームワークを提案する。
提案手法は,正規化推定器を適応度スコア(PS)と結果回帰(OR)モデルの両方に用い,拡張逆確率重み付き(AIPW)法を開発した。
我々の理論的な知見は、広範囲なシミュレーション研究と実世界のデータ応用を通して検証される。
論文 参考訳(メタデータ) (2024-06-20T00:34:54Z) - Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment [76.44483062571611]
テスト時間適応(TTA)は、未知のシフト対象ドメインでテストする場合、ソースドメイン事前訓練モデルの性能を向上させることを目的としている。
従来のTTA手法は、主にターゲットデータストリームに基づいてモデルの重みを適応し、ターゲットデータの量と順序に敏感なモデル性能を実現する。
最近の拡散駆動型TTA法は非条件拡散モデルを用いて強い性能を示した。
論文 参考訳(メタデータ) (2024-06-06T17:39:09Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Balancing Act: Constraining Disparate Impact in Sparse Models [20.058720715290434]
本研究では,プルーニングの異なる影響に直接対処する制約付き最適化手法を提案する。
我々の定式化は、各部分群に対する密度モデルとスパースモデルの間の精度変化を束縛する。
実験により,本手法は大規模モデルや数百の保護されたサブグループに関わる問題に対して確実にスケール可能であることが示された。
論文 参考訳(メタデータ) (2023-10-31T17:37:35Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - LSDAT: Low-Rank and Sparse Decomposition for Decision-based Adversarial
Attack [74.5144793386864]
LSDATは、入力サンプルのスパース成分と対向サンプルのスパース成分によって形成される低次元部分空間における摂動を加工する。
LSDは画像ピクセル領域で直接動作し、スパース性などの非$ell$制約が満たされることを保証します。
論文 参考訳(メタデータ) (2021-03-19T13:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。