論文の概要: Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution
- arxiv url: http://arxiv.org/abs/2401.15866v2
- Date: Wed, 30 Oct 2024 07:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 20:43:54.645821
- Title: Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution
- Title(参考訳): Stochastic Amortization: 特徴とデータ属性を高速化するための統一的なアプローチ
- Authors: Ian Covert, Chanwoo Kim, Su-In Lee, James Zou, Tatsunori Hashimoto,
- Abstract要約: 雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
- 参考スコア(独自算出の注目度): 62.71425232332837
- License:
- Abstract: Many tasks in explainable machine learning, such as data valuation and feature attribution, perform expensive computation for each data point and are intractable for large datasets. These methods require efficient approximations, and although amortizing the process by learning a network to directly predict the desired output is a promising solution, training such models with exact labels is often infeasible. We therefore explore training amortized models with noisy labels, and we find that this is inexpensive and surprisingly effective. Through theoretical analysis of the label noise and experiments with various models and datasets, we show that this approach tolerates high noise levels and significantly accelerates several feature attribution and data valuation methods, often yielding an order of magnitude speedup over existing approaches.
- Abstract(参考訳): データアセスメントや特徴属性など、説明可能な機械学習における多くのタスクは、各データポイントに対して高価な計算を行い、大規模なデータセットに対して難解である。
これらの手法には効率的な近似が必要であり、ネットワークを学習して望ましい出力を直接予測することでプロセスの復調は有望な解決策であるが、正確なラベルでそのようなモデルを訓練することは不可能であることが多い。
そこで,ノイズラベル付きトレーニング・アモータライズド・モデルについて検討した結果,これは安価で驚くほど効果的であることが判明した。
ラベルノイズの理論的解析と様々なモデルやデータセットによる実験により、このアプローチは高いノイズレベルを許容し、いくつかの特徴属性およびデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップすることを示した。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - MILD: Modeling the Instance Learning Dynamics for Learning with Noisy
Labels [19.650299232829546]
クリーンなデータを特定するために,Weibull混合モデルに基づく反復的選択手法を提案する。
特に、誤分類と暗記の間の遷移時間を通じて、各インスタンスの暗記の難しさを測定し、暗記する。
我々の戦略は既存の雑音ラベル学習方法より優れている。
論文 参考訳(メタデータ) (2023-06-20T14:26:53Z) - Learning with Noisy labels via Self-supervised Adversarial Noisy Masking [33.87292143223425]
対向雑音マスキングと呼ばれる新しいトレーニング手法を提案する。
入力データとラベルを同時に調整し、ノイズの多いサンプルが過度に収まらないようにする。
合成および実世界のノイズデータセットの両方でテストされる。
論文 参考訳(メタデータ) (2023-02-14T03:13:26Z) - Neural Active Learning on Heteroskedastic Distributions [29.01776999862397]
ヘテロスケダスティックデータセット上でのアクティブ学習アルゴリズムの破滅的な失敗を実証する。
本稿では,各データポイントにモデル差分スコアリング関数を組み込んで,ノイズの多いサンプルとサンプルクリーンなサンプルをフィルタするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:30:19Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。