論文の概要: A Bayesian Information-Theoretic Approach to Data Attribution
- arxiv url: http://arxiv.org/abs/2604.03858v2
- Date: Wed, 08 Apr 2026 22:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 14:10:47.862078
- Title: A Bayesian Information-Theoretic Approach to Data Attribution
- Title(参考訳): データ属性に対するベイズ情報理論のアプローチ
- Authors: Dharmesh Tailor, Nicolò Felicioni, Kamil Ciosek,
- Abstract要約: トレーニングデータ属性は、モデル予測を、影響力のあるトレーニング例に遡ることを目指している。
タンジェント特徴から構築したガウス過程サロゲートを用いて情報損失を近似する。
実験では,手法を現代的なアーキテクチャに拡張すると同時に,原則的尺度を実践的にブリッジする。
- 参考スコア(独自算出の注目度): 7.908887001497405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training Data Attribution (TDA) seeks to trace model predictions back to influential training examples, enhancing interpretability and safety. We formulate TDA as a Bayesian information-theoretic problem: subsets are scored by the information loss they induce - the entropy increase at a query when removed. This criterion credits examples for resolving predictive uncertainty rather than label noise. To scale to modern networks, we approximate information loss using a Gaussian Process surrogate built from tangent features. We show this aligns with classical influence scores for single-example attribution while promoting diversity for subsets. For even larger-scale retrieval, we relax to an information-gain objective and add a variance correction for scalable attribution in vector databases. Experiments show competitive performance on counterfactual sensitivity, ground-truth retrieval and coreset selection, showing that our method scales to modern architectures while bridging principled measures with practice.
- Abstract(参考訳): トレーニングデータ属性(TDA)は、モデル予測を影響力のあるトレーニング例に遡り、解釈可能性と安全性を向上させる。
我々は、TDAをベイズ情報理論問題として定式化し、サブセットはそれらが引き起こす情報損失によってスコア付けされる。
この基準は、ラベルノイズよりも予測の不確実性の解消の例である。
現代のネットワークにスケールするために,タンジェント特徴から構築したガウス過程サロゲートを用いて情報損失を近似する。
本研究は,サブセットの多様性を推進しつつ,単一サンプル属性に対する古典的影響スコアと整合性を示す。
さらに大規模な検索を行うためには、情報ゲインの対象にリラックスし、拡張性のある属性に対する分散補正をベクトルデータベースに追加する。
実験により, 提案手法が近代建築に拡張し, 原則的対策を実践しながら, 対物感度, 地中構造検索, コアセット選択の競合性能を示す。
関連論文リスト
- Daunce: Data Attribution through Uncertainty Estimation [7.809316632545256]
トレーニングデータ属性法は、特定のテストデータに対して、どのトレーニング例がモデルの予測に最も影響するかを特定することを目的としている。
勾配に基づくTDA法は勾配と2次情報に依存し、大規模に適用性を制限する。
本稿では,不確実性推定による簡便かつ効果的なデータ帰属手法であるDaunceを紹介する。
論文 参考訳(メタデータ) (2025-05-29T08:08:38Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - On Counterfactual Data Augmentation Under Confounding [30.76982059341284]
トレーニングデータのバイアスを緩和する手段として、対実データ拡張が出現している。
これらのバイアスは、データ生成プロセスにおいて観測され、観測されていない様々な共役変数によって生じる。
提案手法は,既存の最先端手法が優れた結果を得るのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-05-29T16:20:23Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Mutual Information Learned Classifiers: an Information-theoretic
Viewpoint of Training Deep Learning Classification Systems [9.660129425150926]
クロスエントロピー損失は、重度のオーバーフィッティング動作を示すモデルを見つけるのに容易である。
本稿では,既存のDNN分類器のクロスエントロピー損失最小化が,基礎となるデータ分布の条件エントロピーを本質的に学習することを証明する。
ラベルと入力の相互情報を学習することで、DNN分類器を訓練する相互情報学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-03T15:09:19Z) - Adaptive Dimension Reduction and Variational Inference for Transductive
Few-Shot Classification [2.922007656878633]
適応次元の削減によりさらに改善された変分ベイズ推定に基づく新しいクラスタリング法を提案する。
提案手法は,Few-Shotベンチマークにおける現実的非バランスなトランスダクティブ設定の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-09-18T10:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。