論文の概要: IF-GUIDE: Influence Function-Guided Detoxification of LLMs
- arxiv url: http://arxiv.org/abs/2506.01790v2
- Date: Mon, 09 Jun 2025 04:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.111338
- Title: IF-GUIDE: Influence Function-Guided Detoxification of LLMs
- Title(参考訳): IF-GUIDE:LLMの機能性誘導デトックス化
- Authors: Zachary Coalson, Juhan Bae, Nicholas Carlini, Sanghyun Hong,
- Abstract要約: 本研究では,大規模言語モデルにおける有害な行動の出現に,トレーニングデータがどのように寄与するかを検討する。
本稿では,任意のトレーニングデータ中の有害トークンを識別し,トレーニング中の影響を抑制するために,影響関数を利用する$proactiveアプローチを提案する。
本稿では,有毒な訓練資料の選択手法や学習目標などとともに,学習データから有毒度をモデル化するためのトークンレベルの属性を測定する新しい適応法を提案する。
- 参考スコア(独自算出の注目度): 53.051109450536885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how training data contributes to the emergence of toxic behaviors in large-language models. Most prior work on reducing model toxicity adopts $reactive$ approaches, such as fine-tuning pre-trained (and potentially toxic) models to align them with human values. In contrast, we propose a $proactive$ approach$-$IF-Guide$-$which leverages influence functions to identify harmful tokens within any training data and suppress their impact during training. To this end, we first show that standard influence functions are ineffective at discovering harmful training records. We then present a novel adaptation that measures token-level attributions from training data to model toxicity, along with techniques for selecting toxic training documents and a learning objective that can be integrated into both pre-training and fine-tuning. Moreover, IF-Guide does not rely on human-preference data, which is typically required by existing alignment methods. In evaluation, we demonstrate that IF-Guide substantially reduces both explicit and implicit toxicity$-$by up to 10$\times$ compared to uncensored models, and up to 3$\times$ compared to baseline alignment methods, e.g., DPO and RAD$-$across both pre-training and fine-tuning scenarios. IF-Guide is computationally efficient: a billion-parameter model is $not$ $necessary$ for computing influence scores; a million-parameter model$-$with 7.5$\times$ fewer parameters$-$can effectively serve as a proxy for identifying harmful data. Our code is publicly available at: https://github.com/ztcoalson/IF-Guide
- Abstract(参考訳): 本研究では,大規模言語モデルにおける有害な行動の出現に,トレーニングデータがどのように寄与するかを検討する。
モデル毒性の低減に関するこれまでのほとんどの研究は、人的価値に合わせるための微調整(および潜在的に有毒な)モデルなど、$reactive$アプローチを採用していた。
対照的に、トレーニングデータ内の有害トークンを識別し、トレーニング中の影響を抑えるために影響関数を利用する$proactive$ Approach$-$IF-Guide$-$を提案する。
そこで本研究では, 標準影響関数が有害なトレーニング記録の発見に有効でないことを示す。
そこで我々は,有毒な訓練文書の選択技術や,事前学習と微調整の両方に組み込む学習目的などとともに,学習データから有毒度をモデル化するためのトークンレベルの属性を測定する新しい適応法を提案する。
さらに、IF-Guideは、既存のアライメント手法で要求される人間の参照データに依存しない。
評価において,IF-Guideは,無検閲モデルと比較して暗黙的および暗黙的な毒性$-$byを10$\times$に,ベースラインアライメント手法(例えば,DPO,RAD$-$across)と比較して最大3$\times$に下げることを示した。
IF-Guideは計算効率が良い: 10億パラメトリモデルは計算影響スコアに$not$$necessary$; 100万パラメトリモデル$-with 7.5$\times$ less parameters$-$canは、有害なデータを識別するプロキシとして効果的に機能する。
私たちのコードは、https://github.com/ztcoalson/IF-Guideで公開されています。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - $\nabla τ$: Gradient-based and Task-Agnostic machine Unlearning [7.04736023670375]
グラディエントベースおよびタスク非依存マシンUnlearning(nabla tau$)を紹介する。
$nabla tau$は、残りのデータに対して標準の勾配勾配を使いながら、忘れられるデータに適応的な勾配勾配を適用します。
我々は、確立されたメンバーシップ推論攻撃指標を用いて、フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-21T12:11:26Z) - Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z) - Recommendation Unlearning via Influence Function [42.4931807753579]
本稿では,新しいインフルエンス関数に基づく推薦アンラーニング(IFRU, Recommendation Unlearning)フレームワークを提案する。
IFRUは、フルリトレーニングに匹敵するレコメンデーションパフォーマンスを持つリトレーニングベースの手法と比較して、250倍以上のアクセラレーションを実現している。
論文 参考訳(メタデータ) (2023-07-05T09:42:51Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Simfluence: Modeling the Influence of Individual Training Examples by
Simulating Training Runs [27.314239745883967]
トレーニングデータ属性(TDA)メソッドは、任意の例に対するモデルの予測を、特定の影響力のあるトレーニング例に遡る。
そこで本研究では,TDAの新しいパラダイムであるSimfluenceを提案する。
シムフルエンスは非付加的な相互作用を捉え、個々の損失のスパイクな軌道を驚くほどの忠実さで予測することができる。
論文 参考訳(メタデータ) (2023-03-14T17:47:25Z) - One-Pixel Shortcut: on the Learning Preference of Deep Neural Networks [28.502489028888608]
Unlearnable Example (ULE) は、DNNのトレーニングのための不正使用からデータを保護することを目的としている。
逆行訓練では、誤り最小化ノイズの非学習性は著しく低下する。
本稿では,各画像の1ピクセルのみを摂動させ,データセットを学習不能にする,新しいモデルフリー手法であるemphOne-Pixel Shortcutを提案する。
論文 参考訳(メタデータ) (2022-05-24T15:17:52Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Guided Interpolation for Adversarial Training [73.91493448651306]
トレーニングが進むにつれて、トレーニングデータは徐々に攻撃しやすくなり、堅牢性の向上が損なわれる。
本稿では,前時代のメタ情報を用いて,データの逆変換をガイドするguided framework(gif)を提案する。
バニラミキサアップと比較すると、GIFは攻撃可能なデータの比率を高くすることができ、堅牢性向上に有効である。
論文 参考訳(メタデータ) (2021-02-15T03:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。