論文の概要: A Simple and Efficient Baseline for Data Attribution on Images
- arxiv url: http://arxiv.org/abs/2311.03386v1
- Date: Fri, 3 Nov 2023 17:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:43:18.290313
- Title: A Simple and Efficient Baseline for Data Attribution on Images
- Title(参考訳): 画像データ帰属のための簡易かつ効率的なベースライン
- Authors: Vasu Singla, Pedro Sandoval-Segura, Micah Goldblum, Jonas Geiping, Tom
Goldstein
- Abstract要約: 現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
- 参考スコア(独自算出の注目度): 107.12337511216228
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data attribution methods play a crucial role in understanding machine
learning models, providing insight into which training data points are most
responsible for model outputs during deployment. However, current
state-of-the-art approaches require a large ensemble of as many as 300,000
models to accurately attribute model predictions. These approaches therefore
come at a high computational cost, are memory intensive, and are hard to scale
to large models or datasets. In this work, we focus on a minimalist baseline,
utilizing the feature space of a backbone pretrained via self-supervised
learning to perform data attribution. Our method is model-agnostic and scales
easily to large datasets. We show results on CIFAR-10 and ImageNet, achieving
strong performance that rivals or outperforms state-of-the-art approaches at a
fraction of the compute or memory cost. Contrary to prior work, our results
reinforce the intuition that a model's prediction on one image is most impacted
by visually similar training samples. Our approach serves as a simple and
efficient baseline for data attribution on images.
- Abstract(参考訳): データ帰属メソッドは、機械学習モデルを理解する上で重要な役割を担い、デプロイメント中にどのトレーニングデータポイントがモデルアウトプットに最も責任を持つのかについての洞察を提供する。
しかし、現在の最先端のアプローチでは、モデル予測を正確に評価するために最大30万のモデルの大規模なアンサンブルが必要となる。
したがって、これらのアプローチは計算コストが高く、メモリ集約性が高く、大規模モデルやデータセットへのスケールアップが困難である。
本研究では,自己教師付き学習によって事前学習されたバックボーンの機能空間を利用して,データ帰属を行うミニマリストベースラインに注目した。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
CIFAR-10 と ImageNet では,計算コストやメモリコストのごく一部で最先端の手法に匹敵する,あるいは性能が向上することを示す。
先行研究とは対照的に,1つの画像に対するモデルの予測は,視覚的に類似したトレーニングサンプルによって最も影響を受けるという直観を補強する。
我々のアプローチは、画像へのデータ属性の単純で効率的なベースラインとして機能する。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Revealing the Underlying Patterns: Investigating Dataset Similarity,
Performance, and Generalization [0.0]
教師付きディープラーニングモデルは、特定のタスクで許容可能なパフォーマンスを達成するために、大量のラベル付きデータを必要とする。
モデル動作に関する洞察を得るために、画像イメージ、データセット、画像データセット距離を確立する。
論文 参考訳(メタデータ) (2023-08-07T13:35:53Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。