論文の概要: DualView: Data Attribution from the Dual Perspective
- arxiv url: http://arxiv.org/abs/2402.12118v1
- Date: Mon, 19 Feb 2024 13:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-20 16:39:10.048476
- Title: DualView: Data Attribution from the Dual Perspective
- Title(参考訳): DualView: デュアルパースペクティブからのデータ属性
- Authors: Galip \"Umit Yolcu, Thomas Wiegand, Wojciech Samek, Sebastian
Lapuschkin
- Abstract要約: 代理モデルに基づくポストホックデータ属性の新しい手法であるDualViewを提案する。
DualViewは、他の手法に比べて計算資源がかなり少ないのに対して、評価指標間では同等のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 16.083769847895336
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Local data attribution (or influence estimation) techniques aim at estimating
the impact that individual data points seen during training have on particular
predictions of an already trained Machine Learning model during test time.
Previous methods either do not perform well consistently across different
evaluation criteria from literature, are characterized by a high computational
demand, or suffer from both. In this work we present DualView, a novel method
for post-hoc data attribution based on surrogate modelling, demonstrating both
high computational efficiency, as well as good evaluation results. With a focus
on neural networks, we evaluate our proposed technique using suitable
quantitative evaluation strategies from the literature against related
principal local data attribution methods. We find that DualView requires
considerably lower computational resources than other methods, while
demonstrating comparable performance to competing approaches across evaluation
metrics. Futhermore, our proposed method produces sparse explanations, where
sparseness can be tuned via a hyperparameter. Finally, we showcase that with
DualView, we can now render explanations from local data attributions
compatible with established local feature attribution methods: For each
prediction on (test) data points explained in terms of impactful samples from
the training set, we are able to compute and visualize how the prediction on
(test) sample relates to each influential training sample in terms of features
recognized and by the model. We provide an Open Source implementation of
DualView online, together with implementations for all other local data
attribution methods we compare against, as well as the metrics reported here,
for full reproducibility.
- Abstract(参考訳): ローカルデータ属性(あるいは影響推定)技術は、トレーニング中に個々のデータポイントがテスト期間中にトレーニング済みの機械学習モデルの特定の予測に与える影響を推定することを目的としている。
従来の手法は、文献から異なる評価基準を満たさないか、高い計算需要によって特徴づけられるか、両方に苦しむかのどちらかである。
本研究では,サロゲートモデルに基づくポストホックデータ帰属のための新しい手法であるdualviewを提案する。
ニューラルネットワークに着目し,関連する局所的データ帰属法に対する文献から適切な定量的評価戦略を用いて,提案手法を評価した。
DualViewは、他の手法に比べて計算資源がかなり少ないのに対して、評価指標間で競合するアプローチに匹敵する性能を示す。
さらに,提案手法では,超パラメータを用いてスパースネスをチューニングできるスパース説明を生成する。
最後に、DualViewでは、既存のローカル機能属性メソッドと互換性のあるローカルデータ属性からの説明を描画できるようになった。 トレーニングセットからの衝撃的なサンプルの観点から説明された(テスト)データポイントの各予測に対して、その(テスト)サンプルの予測が、特徴を認識し、モデルによって認識される各影響トレーニングサンプルとどのように関連しているかを計算し、視覚化することができる。
私たちはdualview onlineのオープンソース実装と、私たちが比較した他のすべてのローカルデータトリビューションメソッドの実装、およびここで報告したメトリクスを完全な再現性のために提供します。
関連論文リスト
- Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - DANCE: Dual-View Distribution Alignment for Dataset Condensation [39.08022095906364]
我々は、データセットのコンディエンテーション(DANCE)のためのDMベースの新しいDual-view Distribution AligNmentを提案する。
具体的には、内部クラスの観点から複数の「中間エンコーダ」を構築し、擬似的な長期分布アライメントを行う。
クラス間の観点からは,分布キャリブレーションを行うために専門家モデルを用いる。
論文 参考訳(メタデータ) (2024-06-03T07:22:17Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Multiply Robust Estimation for Local Distribution Shifts with Multiple Domains [9.429772474335122]
我々は、全人口の複数のセグメントにまたがってデータ分布が変化するシナリオに焦点を当てる。
そこで本研究では,各セグメントのモデル性能を改善するために,二段階多重ロバスト推定法を提案する。
本手法は,市販の機械学習モデルを用いて実装されるように設計されている。
論文 参考訳(メタデータ) (2024-02-21T22:01:10Z) - Mini-Hes: A Parallelizable Second-order Latent Factor Analysis Model [8.06111903129142]
本稿では,LFAモデル構築のためのミニブロック対角ヘシアンフリー(Mini-Hes)最適化を提案する。
実験結果から,Mini-Hesでは,LFAモデルは欠落したデータ推定タスクに対処する上で,いくつかの最先端モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-19T08:43:00Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - A classification performance evaluation measure considering data
separability [6.751026374812737]
本稿では,データ符号化率に基づく新たな分離可能性尺度を提案する。
実データセットから構築したマルチタスクシナリオにおいて,提案手法と認識精度の正の相関性を示す。
論文 参考訳(メタデータ) (2022-11-10T09:18:26Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance
Text Classification [34.15923302216751]
本稿では,効率的なテキスト分類を支援するための簡易でプラグイン型のデータ拡張フレームワーク EPiDA を提案する。
EPiDAは、データ生成を制御するために、相対エントロピー(REM)と条件最小エントロピー(CEM)の2つのメカニズムを採用している。
EPiDAは効率的な分類訓練のための効率的で継続的なデータ生成をサポートする。
論文 参考訳(メタデータ) (2022-04-24T06:53:48Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Interpretable pipelines with evolutionarily optimized modules for RL
tasks with visual inputs [5.254093731341154]
進化的アルゴリズムを用いて協調最適化された複数の解釈可能なモデルからなるエンドツーエンドパイプラインを提案する。
Atariベンチマークの強化学習環境において,本手法を検証した。
論文 参考訳(メタデータ) (2022-02-10T10:33:44Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - DADA: Differentiable Automatic Data Augmentation [58.560309490774976]
コストを大幅に削減する微分可能自動データ拡張(DADA)を提案する。
CIFAR-10, CIFAR-100, SVHN, ImageNetのデータセットについて広範な実験を行った。
その結果,DADAは最先端技術よりも1桁以上高速であり,精度は極めて高いことがわかった。
論文 参考訳(メタデータ) (2020-03-08T13:23:14Z) - Generalized ODIN: Detecting Out-of-distribution Image without Learning
from Out-of-distribution Data [87.61504710345528]
我々は,OoD検出性能を改善しつつ,ニューラルネットワークをOoDデータのチューニングから解放する2つの方法を提案する。
具体的には、信頼性スコアリングと修正された入力前処理法を分離することを提案する。
大規模画像データセットのさらなる解析により、セマンティックシフトと非セマンティックシフトの2種類の分布シフトが有意な差を示すことが示された。
論文 参考訳(メタデータ) (2020-02-26T04:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。