論文の概要: Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions
- arxiv url: http://arxiv.org/abs/2602.09987v1
- Date: Tue, 10 Feb 2026 17:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.70088
- Title: Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions
- Title(参考訳): インフュージョン:インフルエンス関数によるトレーニングデータの編集によるモデル行動の形成
- Authors: J Rosser, Robert Kirk, Edward Grefenstette, Jakob Foerster, Laura Ruis,
- Abstract要約: 我々のフレームワークであるInfusionは、スケーラブルな影響関数近似を用いて、ドキュメントのトレーニングに小さな摂動を計算する。
Infusionは、少数の明示的な動作例を挿入するベースラインと競合する可能性があることを示す。
予備的な言語実験では、我々のアプローチが目標となる行動の確率を高め、失敗すると、モデルが既に学習した行動の増幅に最も効果的であることを示す。
- 参考スコア(独自算出の注目度): 15.843802377872121
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Influence functions are commonly used to attribute model behavior to training documents. We explore the reverse: crafting training data that induces model behavior. Our framework, Infusion, uses scalable influence-function approximations to compute small perturbations to training documents that induce targeted changes in model behavior through parameter shifts. We evaluate Infusion on data poisoning tasks across vision and language domains. On CIFAR-10, we show that making subtle edits via Infusion to just 0.2% (100/45,000) of the training documents can be competitive with the baseline of inserting a small number of explicit behavior examples. We also find that Infusion transfers across architectures (ResNet $\leftrightarrow$ CNN), suggesting a single poisoned corpus can affect multiple independently trained models. In preliminary language experiments, we characterize when our approach increases the probability of target behaviors and when it fails, finding it most effective at amplifying behaviors the model has already learned. Taken together, these results show that small, subtle edits to training data can systematically shape model behavior, underscoring the importance of training data interpretability for adversaries and defenders alike. We provide the code here: https://github.com/jrosseruk/infusion.
- Abstract(参考訳): 影響関数は、訓練文書に対するモデル行動の属性として一般的に用いられる。
モデルの振る舞いを誘発するトレーニングデータを作成する。
我々のフレームワークであるInfusionは、拡張性のある影響関数近似を用いて小さな摂動を計算し、パラメータシフトによって対象となるモデル動作の変化を誘導する文書を訓練する。
視覚領域と言語領域にわたるデータ中毒タスクに対するInfusionの評価を行った。
CIFAR-10では,Infusionによる微妙な編集をトレーニング資料の0.2% (100/45,000) まで行うことは,少数の明示的な動作例を挿入するベースラインと競合することを示す。
また、Infusionはアーキテクチャ間で転送される(ResNet $\leftrightarrow$ CNN)。
予備的な言語実験では、我々のアプローチが目標となる行動の確率を高め、失敗すると、モデルが既に学習した行動の増幅に最も効果的であることを示す。
これらの結果から, 学習データに対する微妙な小編集は, モデル行動の体系的形成に寄与し, 敵や守備側にとっても, 訓練データの解釈可能性の重要性が強調された。
https://github.com/jrosseruk/infusion。
関連論文リスト
- Distributional Training Data Attribution: What do Influence Functions Sample? [25.257922996567178]
分散学習データ属性(d-TDA)を導入する。
d-TDAの目標は、モデル出力の分布がデータセットに依存するかを予測することである。
影響関数 (IF) は「秘密分布」である。
論文 参考訳(メタデータ) (2025-06-15T21:02:36Z) - Learning to Weight Parameters for Training Data Attribution [62.830878652285406]
本稿では,アノテートラベルを必要とせず,パラメータ重み付けをデータから直接明示的に学習する手法を提案する。
提案手法は,画像分類,言語モデリング,拡散など多種多様なタスクに対する帰属精度を向上し,主題やスタイルといった概念に対する微粒な帰属を可能にする。
論文 参考訳(メタデータ) (2025-06-06T00:32:04Z) - Small-to-Large Generalization: Data Influences Models Consistently Across Scale [76.87199303408161]
小規模および大規模言語モデル予測(一般的には)は、トレーニングデータの選択に非常に相関している。
また、データ属性とデータセット選択という2つの下流プロキシモデルアプリケーションにおいて、プロキシスケールが有効性にどのように影響するかを特徴付ける。
論文 参考訳(メタデータ) (2025-05-22T05:50:19Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - FastIF: Scalable Influence Functions for Efficient Model Interpretation
and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。
fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。
本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文 参考訳(メタデータ) (2020-12-31T18:02:34Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。