Fugu-MT 論文翻訳(概要): Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution

論文の概要: Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution

arxiv url: http://arxiv.org/abs/2401.15866v1
Date: Mon, 29 Jan 2024 03:42:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 16:00:40.245470
Title: Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution
Title（参考訳）: Stochastic Amortization: 特徴とデータ属性を高速化するための統一的なアプローチ
Authors: Ian Covert, Chanwoo Kim, Su-In Lee, James Zou, Tatsunori Hashimoto
Abstract要約: アモート化(amortization)と呼ばれる,所望の出力を直接予測するネットワークのトレーニングは安価で,驚くほど効果的であることを示す。このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
参考スコア（独自算出の注目度）: 67.28273187033693
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many tasks in explainable machine learning, such as data valuation and feature attribution, perform expensive computation for each data point and can be intractable for large datasets. These methods require efficient approximations, and learning a network that directly predicts the desired output, which is commonly known as amortization, is a promising solution. However, training such models with exact labels is often intractable; we therefore explore training with noisy labels and find that this is inexpensive and surprisingly effective. Through theoretical analysis of the label noise and experiments with various models and datasets, we show that this approach significantly accelerates several feature attribution and data valuation methods, often yielding an order of magnitude speedup over existing approaches.
Abstract（参考訳）: データアセスメントや特徴属性など、説明可能な機械学習における多くのタスクは、各データポイントに対して高価な計算を行い、大規模なデータセットに対して引き出すことができる。これらの方法は効率的な近似を必要とし、望まれる出力を直接予測するネットワークを学習する。しかし,厳密なラベルでモデルを訓練することは難解な場合が多いため,ノイズラベルを用いたトレーニングを検討した結果,安価で驚くほど効果的であることが判明した。ラベルノイズの理論解析と様々なモデルやデータセットを用いた実験を通じて、このアプローチはいくつかの特徴帰属法とデータ評価法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップすることを示した。

関連論文リスト

Oversampling and Downsampling with Core-Boundary Awareness: A Data Quality-Driven Approach [2.334306891078381]
本稿では,2種類のデータを系統的に識別し,識別する手法を提案する。高品質な意思決定関連データを優先順位付けすることで、私たちのアプローチはテキスト、マルチモーダル、そして自己教師型学習シナリオにまで拡張できます。この研究は、データ効率の学習における将来の研究の道を開いた。
論文参考訳（メタデータ） (2025-09-24T07:55:07Z)
Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。 2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。 Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文参考訳（メタデータ） (2025-08-20T11:59:32Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文参考訳（メタデータ） (2023-10-24T20:28:59Z)
Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-26T12:43:25Z)
MILD: Modeling the Instance Learning Dynamics for Learning with Noisy Labels [19.650299232829546]
クリーンなデータを特定するために,Weibull混合モデルに基づく反復的選択手法を提案する。特に、誤分類と暗記の間の遷移時間を通じて、各インスタンスの暗記の難しさを測定し、暗記する。我々の戦略は既存の雑音ラベル学習方法より優れている。
論文参考訳（メタデータ） (2023-06-20T14:26:53Z)
Learning with Noisy labels via Self-supervised Adversarial Noisy Masking [33.87292143223425]
対向雑音マスキングと呼ばれる新しいトレーニング手法を提案する。入力データとラベルを同時に調整し、ノイズの多いサンプルが過度に収まらないようにする。合成および実世界のノイズデータセットの両方でテストされる。
論文参考訳（メタデータ） (2023-02-14T03:13:26Z)
Neural Active Learning on Heteroskedastic Distributions [29.01776999862397]
ヘテロスケダスティックデータセット上でのアクティブ学習アルゴリズムの破滅的な失敗を実証する。本稿では,各データポイントにモデル差分スコアリング関数を組み込んで,ノイズの多いサンプルとサンプルクリーンなサンプルをフィルタするアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-11-02T07:30:19Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文参考訳（メタデータ） (2022-02-04T15:46:27Z)
Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文参考訳（メタデータ） (2020-07-07T04:17:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。