Fugu-MT 論文翻訳(概要): DeTox: Toxic Subspace Projection for Model Editing

論文の概要: DeTox: Toxic Subspace Projection for Model Editing

arxiv url: http://arxiv.org/abs/2405.13967v1
Date: Wed, 22 May 2024 20:08:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 20:14:01.827661
Title: DeTox: Toxic Subspace Projection for Model Editing
Title（参考訳）: DeTox: モデル編集のための Toxic Subspace Projection
Authors: Rheeya Uppaal, Apratim De, Yiting He, Yiquao Zhong, Junjie Hu,
Abstract要約: 我々は,無調律アライメント(DeTox)を導入し,毒性低減のユースケースで有効性を示す。 DeToxは、モデルパラメータ空間内の有毒な部分空間を識別し、検出された部分空間を投影することでモデル毒性を低減する、サンプル効率のよいモデル編集アプローチである。 DeTox は DPO よりもサンプリング効率が高く,さらにノイズの多いデータに対するロバスト性を示す。
参考スコア（独自算出の注目度）: 6.786565820048478
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent alignment algorithms such as direct preference optimization (DPO) have been developed to improve the safety of large language models (LLMs) by training these models to match human behaviors exemplified by preference data. However, these methods are both computationally intensive and lacking in controllability and transparency, making them prone to jailbreaking and inhibiting their widespread use. Furthermore, these tuning-based methods require large-scale preference data for training and are susceptible to noisy preference data. In this paper, we introduce a tuning-free alignment alternative (DeTox) and demonstrate its effectiveness under the use case of toxicity reduction. Grounded on theory from factor analysis, DeTox is a sample-efficient model editing approach that identifies a toxic subspace in the model parameter space and reduces model toxicity by projecting away the detected subspace. The toxic sub-space is identified by extracting preference data embeddings from the language model, and removing non-toxic information from these embeddings. We show that DeTox is more sample-efficient than DPO, further showcasing greater robustness to noisy data. Finally, we establish both theoretical and empirical connections between DeTox and DPO, showing that DeTox can be interpreted as a denoised version of a single DPO step.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)の安全性向上のために,嗜好データに代表される人間の行動に適合する手法として,直接選好最適化(DPO)などのアライメントアルゴリズムが開発されている。しかし、これらの手法はどちらも計算集約的であり、制御性と透明性が欠如しているため、脱獄や広範囲の使用を阻害する傾向がある。さらに、これらのチューニングベースの手法は、トレーニングのための大規模な嗜好データを必要とし、ノイズの多い選好データに影響を受けやすい。本稿では,無調律アライメント(DeTox)を導入し,その有効性を示す。 DeToxはモデルパラメータ空間内の有毒な部分空間を識別し、検出された部分空間を投影することでモデル毒性を低減する、サンプル効率のよいモデル編集手法である。言語モデルから好みデータ埋め込みを抽出し、これらの埋め込みから有害でない情報を除去することにより、有害な部分空間を同定する。 DeTox は DPO よりもサンプリング効率が高く,さらにノイズの多いデータに対するロバスト性を示す。最後に、DeTox と DPO の間の理論的および実証的な接続を確立することにより、DeTox が単一の DPO ステップの復号版として解釈可能であることを示す。

関連論文リスト

Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
DONOD: Robust and Generalizable Instruction Fine-Tuning for LLMs via Model-Intrinsic Dataset Pruning [22.704995231753397]
大規模言語モデル(LLM)のアドホック命令の微調整は、ドメイン固有の適応に広く採用されている。本研究では,軽量なモデル固有データ解析手法であるDONODを提案する。完全なデータセットの70%をフィルタリングすることで、ターゲットドメインの精度を14.90%、クロスドメインの精度を5.67%向上させる。
論文参考訳（メタデータ） (2025-04-21T02:25:03Z)
InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (2025-03-24T08:58:49Z)
DFF: Decision-Focused Fine-tuning for Smarter Predict-then-Optimize with Limited Data [7.70699448711673]
意思決定中心学習(DFL)は、予測モデルを直接判断損失(DL)に基づいて訓練することにより、予測テーマ最適化(PO)フレームワークへのエンドツーエンドアプローチを提供する。いくつかの予測モデルは微分不可能またはブラックボックスであり、勾配法では調整できない。本稿では,DFLモジュールを新しいバイアス補正モジュールを介してPOパイプラインに埋め込む,DFF(Decision-Focused Fine-tuning)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-03T15:46:25Z)
Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文参考訳（メタデータ） (2024-10-17T17:59:02Z)
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。 ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-09-14T11:39:13Z)
Semi-supervised Regression Analysis with Model Misspecification and High-dimensional Data [8.619243141968886]
条件付き平均モデルにおける回帰係数を推定するための推論フレームワークを提案する。提案手法は,正規化推定器を適応度スコア(PS)と結果回帰(OR)モデルの両方に用い,拡張逆確率重み付き(AIPW)法を開発した。我々の理論的な知見は、広範囲なシミュレーション研究と実世界のデータ応用を通して検証される。
論文参考訳（メタデータ） (2024-06-20T00:34:54Z)
Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment [76.44483062571611]
テスト時間適応(TTA)は、未知のシフト対象ドメインでテストする場合、ソースドメイン事前訓練モデルの性能を向上させることを目的としている。従来のTTA手法は、主にターゲットデータストリームに基づいてモデルの重みを適応し、ターゲットデータの量と順序に敏感なモデル性能を実現する。最近の拡散駆動型TTA法は非条件拡散モデルを用いて強い性能を示した。
論文参考訳（メタデータ） (2024-06-06T17:39:09Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文参考訳（メタデータ） (2023-11-21T15:24:05Z)
Balancing Act: Constraining Disparate Impact in Sparse Models [20.058720715290434]
本研究では,プルーニングの異なる影響に直接対処する制約付き最適化手法を提案する。我々の定式化は、各部分群に対する密度モデルとスパースモデルの間の精度変化を束縛する。実験により,本手法は大規模モデルや数百の保護されたサブグループに関わる問題に対して確実にスケール可能であることが示された。
論文参考訳（メタデータ） (2023-10-31T17:37:35Z)
Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-13T01:07:25Z)
Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-29T04:10:04Z)
LSDAT: Low-Rank and Sparse Decomposition for Decision-based Adversarial Attack [74.5144793386864]
LSDATは、入力サンプルのスパース成分と対向サンプルのスパース成分によって形成される低次元部分空間における摂動を加工する。 LSDは画像ピクセル領域で直接動作し、スパース性などの非$ell$制約が満たされることを保証します。
論文参考訳（メタデータ） (2021-03-19T13:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。