論文の概要: Integrated Influence: Data Attribution with Baseline
- arxiv url: http://arxiv.org/abs/2508.05089v1
- Date: Thu, 07 Aug 2025 07:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.739597
- Title: Integrated Influence: Data Attribution with Baseline
- Title(参考訳): 総合的な影響: ベースラインによるデータ属性
- Authors: Linxiao Yang, Xinyu Gu, Liang Sun,
- Abstract要約: 本稿では,ベースラインアプローチを取り入れた新しいデータ属性手法であるIntegrated Influenceを提案する。
本手法は,ベースラインデータセットを定義し,データデジェネレーションプロセスに従って,現在のデータセットをベースラインに遷移させ,各サンプルの影響を蓄積する。
実験結果から,Integrated Influenceは,データ属性タスクと不正なサンプル識別タスクの両方において,既存の手法と比較して信頼性の高いデータ属性を生成することがわかった。
- 参考スコア(独自算出の注目度): 10.269458218353074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an effective approach to quantify how training samples influence test sample, data attribution is crucial for understanding data and model and further enhance the transparency of machine learning models. We find that prevailing data attribution methods based on leave-one-out (LOO) strategy suffer from the local-based explanation, as these LOO-based methods only perturb a single training sample, and overlook the collective influence in the training set. On the other hand, the lack of baseline in many data attribution methods reduces the flexibility of the explanation, e.g., failing to provide counterfactual explanations. In this paper, we propose Integrated Influence, a novel data attribution method that incorporates a baseline approach. Our method defines a baseline dataset, follows a data degeneration process to transition the current dataset to the baseline, and accumulates the influence of each sample throughout this process. We provide a solid theoretical framework for our method, and further demonstrate that popular methods, such as influence functions, can be viewed as special cases of our approach. Experimental results show that Integrated Influence generates more reliable data attributions compared to existing methods in both data attribution task and mislablled example identification task.
- Abstract(参考訳): トレーニングサンプルがテストサンプルに与える影響を定量化する効果的なアプローチとして、データ属性はデータとモデルを理解する上で不可欠であり、機械学習モデルの透明性をさらに向上させる。
LOOをベースとした手法は,1つのトレーニングサンプルのみを摂動させ,トレーニングセットにおける集団的影響を見落としているため,LOO(Left-out-out)戦略に基づく一般的なデータ帰属手法は,局所的な説明に苦しむことがわかった。
一方、多くのデータ帰属法におけるベースラインの欠如は、説明の柔軟性を低下させる。
本稿では,ベースラインアプローチを取り入れた新しいデータ帰属手法であるIntegrated Influenceを提案する。
本手法は,ベースラインデータセットを定義し,データデジェネレーションプロセスに従って,現在のデータセットをベースラインに遷移させ,各サンプルの影響を蓄積する。
本稿では,本手法の理論的枠組みについて述べるとともに,影響関数などの一般的な手法が本手法の特殊な場合とみなすことができることを示す。
実験結果から,Integrated Influenceは,データ属性タスクと不正なサンプル識別タスクの両方において,既存の手法と比較して信頼性の高いデータ属性を生成することがわかった。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Deep Stable Learning for Out-Of-Distribution Generalization [27.437046504902938]
深層ニューラルネットワークに基づくアプローチは、同様の分布を持つデータとトレーニングデータをテストする際に顕著なパフォーマンスを達成した。
トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンス向上の深層モデルの構築に不可欠です。
トレーニングサンプルの学習重みによる特徴間の依存関係を除去し,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-16T03:54:21Z) - Federated Learning under Importance Sampling [49.17137296715029]
本研究は, サンプリングエージェントと非均一に誘導されるデータに対する重要サンプリングと工夫の効果について検討する。
代替のないサンプリングを含むスキームでは,結果のアーキテクチャの性能は,各エージェントのデータ変動性に関連する2つの要因によって制御される。
論文 参考訳(メタデータ) (2020-12-14T10:08:55Z) - Sequential Targeting: an incremental learning approach for data
imbalance in text classification [7.455546102930911]
不均衡なデータセットを扱う方法は、分散スキューを軽減するために不可欠である。
本稿では,提案手法の有効性によらず,新たなトレーニング手法であるシーケンスターゲティング(ST)を提案する。
シミュレーションベンチマークデータセット(IMDB)とNAVERから収集したデータを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-20T04:54:00Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。