論文の概要: IF-GUIDE: Influence Function-Guided Detoxification of LLMs
- arxiv url: http://arxiv.org/abs/2506.01790v2
- Date: Mon, 09 Jun 2025 04:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.111338
- Title: IF-GUIDE: Influence Function-Guided Detoxification of LLMs
- Title(参考訳): IF-GUIDE:LLMの機能性誘導デトックス化
- Authors: Zachary Coalson, Juhan Bae, Nicholas Carlini, Sanghyun Hong,
- Abstract要約: 本研究では,大規模言語モデルにおける有害な行動の出現に,トレーニングデータがどのように寄与するかを検討する。
本稿では,任意のトレーニングデータ中の有害トークンを識別し,トレーニング中の影響を抑制するために,影響関数を利用する$proactiveアプローチを提案する。
本稿では,有毒な訓練資料の選択手法や学習目標などとともに,学習データから有毒度をモデル化するためのトークンレベルの属性を測定する新しい適応法を提案する。
- 参考スコア(独自算出の注目度): 53.051109450536885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how training data contributes to the emergence of toxic behaviors in large-language models. Most prior work on reducing model toxicity adopts $reactive$ approaches, such as fine-tuning pre-trained (and potentially toxic) models to align them with human values. In contrast, we propose a $proactive$ approach$-$IF-Guide$-$which leverages influence functions to identify harmful tokens within any training data and suppress their impact during training. To this end, we first show that standard influence functions are ineffective at discovering harmful training records. We then present a novel adaptation that measures token-level attributions from training data to model toxicity, along with techniques for selecting toxic training documents and a learning objective that can be integrated into both pre-training and fine-tuning. Moreover, IF-Guide does not rely on human-preference data, which is typically required by existing alignment methods. In evaluation, we demonstrate that IF-Guide substantially reduces both explicit and implicit toxicity$-$by up to 10$\times$ compared to uncensored models, and up to 3$\times$ compared to baseline alignment methods, e.g., DPO and RAD$-$across both pre-training and fine-tuning scenarios. IF-Guide is computationally efficient: a billion-parameter model is $not$ $necessary$ for computing influence scores; a million-parameter model$-$with 7.5$\times$ fewer parameters$-$can effectively serve as a proxy for identifying harmful data. Our code is publicly available at: https://github.com/ztcoalson/IF-Guide
- Abstract(参考訳): 本研究では,大規模言語モデルにおける有害な行動の出現に,トレーニングデータがどのように寄与するかを検討する。
モデル毒性の低減に関するこれまでのほとんどの研究は、人的価値に合わせるための微調整(および潜在的に有毒な)モデルなど、$reactive$アプローチを採用していた。
対照的に、トレーニングデータ内の有害トークンを識別し、トレーニング中の影響を抑えるために影響関数を利用する$proactive$ Approach$-$IF-Guide$-$を提案する。
そこで本研究では, 標準影響関数が有害なトレーニング記録の発見に有効でないことを示す。
そこで我々は,有毒な訓練文書の選択技術や,事前学習と微調整の両方に組み込む学習目的などとともに,学習データから有毒度をモデル化するためのトークンレベルの属性を測定する新しい適応法を提案する。
さらに、IF-Guideは、既存のアライメント手法で要求される人間の参照データに依存しない。
評価において,IF-Guideは,無検閲モデルと比較して暗黙的および暗黙的な毒性$-$byを10$\times$に,ベースラインアライメント手法(例えば,DPO,RAD$-$across)と比較して最大3$\times$に下げることを示した。
IF-Guideは計算効率が良い: 10億パラメトリモデルは計算影響スコアに$not$$necessary$; 100万パラメトリモデル$-with 7.5$\times$ less parameters$-$canは、有害なデータを識別するプロキシとして効果的に機能する。
私たちのコードは、https://github.com/ztcoalson/IF-Guideで公開されています。
関連論文リスト
- Rescaled Influence Functions: Accurate Data Attribution in High Dimension [6.812390750464419]
本稿では,データ帰属のための新しいツールであるRescaled Influence Function (RIF) について述べる。
実世界のデータセットでIFとRIFを比較し,実世界の予測精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-06-07T04:19:21Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Delta-Influence: Unlearning Poisons via Influence Functions [18.97730860349776]
有害なトレーニングデータから異常なモデル行動を追跡する新しいアプローチである$Delta$-Influenceを導入する。
$Delta$-Influenceは、有毒なトレーニングデータと妥協したテストポイントとのリンクを回避したデータ変換を適用します。
Delta$-Influenceはすべての設定で最高のアンラーニングを実現しています。
論文 参考訳(メタデータ) (2024-11-20T22:15:10Z) - Exploiting Pre-trained Models for Drug Target Affinity Prediction with Nearest Neighbors [58.661454334877256]
薬物-標的結合親和性(DTA)予測は、薬物発見に不可欠である。
DTA予測へのディープラーニング手法の適用にもかかわらず、達成された精度は依然として準最適である。
事前学習したDTA予測モデルに適用した非表現埋め込みに基づく検索手法である$k$NN-DTAを提案する。
論文 参考訳(メタデータ) (2024-07-21T15:49:05Z) - $\nabla τ$: Gradient-based and Task-Agnostic machine Unlearning [7.04736023670375]
グラディエントベースおよびタスク非依存マシンUnlearning(nabla tau$)を紹介する。
$nabla tau$は、残りのデータに対して標準の勾配勾配を使いながら、忘れられるデータに適応的な勾配勾配を適用します。
我々は、確立されたメンバーシップ推論攻撃指標を用いて、フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-21T12:11:26Z) - Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z) - Recommendation Unlearning via Influence Function [42.4931807753579]
本稿では,新しいインフルエンス関数に基づく推薦アンラーニング(IFRU, Recommendation Unlearning)フレームワークを提案する。
IFRUは、フルリトレーニングに匹敵するレコメンデーションパフォーマンスを持つリトレーニングベースの手法と比較して、250倍以上のアクセラレーションを実現している。
論文 参考訳(メタデータ) (2023-07-05T09:42:51Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Simfluence: Modeling the Influence of Individual Training Examples by
Simulating Training Runs [27.314239745883967]
トレーニングデータ属性(TDA)メソッドは、任意の例に対するモデルの予測を、特定の影響力のあるトレーニング例に遡る。
そこで本研究では,TDAの新しいパラダイムであるSimfluenceを提案する。
シムフルエンスは非付加的な相互作用を捉え、個々の損失のスパイクな軌道を驚くほどの忠実さで予測することができる。
論文 参考訳(メタデータ) (2023-03-14T17:47:25Z) - One-Pixel Shortcut: on the Learning Preference of Deep Neural Networks [28.502489028888608]
Unlearnable Example (ULE) は、DNNのトレーニングのための不正使用からデータを保護することを目的としている。
逆行訓練では、誤り最小化ノイズの非学習性は著しく低下する。
本稿では,各画像の1ピクセルのみを摂動させ,データセットを学習不能にする,新しいモデルフリー手法であるemphOne-Pixel Shortcutを提案する。
論文 参考訳(メタデータ) (2022-05-24T15:17:52Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Guided Interpolation for Adversarial Training [73.91493448651306]
トレーニングが進むにつれて、トレーニングデータは徐々に攻撃しやすくなり、堅牢性の向上が損なわれる。
本稿では,前時代のメタ情報を用いて,データの逆変換をガイドするguided framework(gif)を提案する。
バニラミキサアップと比較すると、GIFは攻撃可能なデータの比率を高くすることができ、堅牢性向上に有効である。
論文 参考訳(メタデータ) (2021-02-15T03:55:08Z) - Self-Adaptive Training: beyond Empirical Risk Minimization [15.59721834388181]
余分な計算コストを伴わずにモデル予測により問題ラベルを動的に補正する新しいトレーニングアルゴリズムを提案する。
自己適応型トレーニングは、様々なレベルのノイズに対する一般化を著しく改善し、自然と敵対両方のトレーニングにおいて過度に適合する問題を緩和する。
CIFARとImageNetデータセットの実験は、我々のアプローチの有効性を2つのアプリケーションで検証する。
論文 参考訳(メタデータ) (2020-02-24T15:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。