Fugu-MT 論文翻訳(概要): Efficient Ensembles Improve Training Data Attribution

論文の概要: Efficient Ensembles Improve Training Data Attribution

arxiv url: http://arxiv.org/abs/2405.17293v1
Date: Mon, 27 May 2024 15:58:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 14:43:44.289533
Title: Efficient Ensembles Improve Training Data Attribution
Title（参考訳）: 効率的なアンサンブルはトレーニングデータ属性を改善する
Authors: Junwei Deng, Ting-Wei Li, Shichang Zhang, Jiaqi Ma,
Abstract要約: トレーニングデータ帰属法は、データ中心AIにおける幅広い応用により、個々のデータポイントがモデル予測に与える影響を定量化することを目的としている。この分野の既存の手法は、リトレーニングベースとグラデーションベースに分類されるが、有害なトレードオフ帰属効果に苦慮している。近年の研究では、複数の独立に訓練されたモデルのアンサンブルによる勾配に基づく手法の強化が、より優れた帰属を達成できることが示されている。
参考スコア（独自算出の注目度）: 12.180392191924758
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training data attribution (TDA) methods aim to quantify the influence of individual training data points on the model predictions, with broad applications in data-centric AI, such as mislabel detection, data selection, and copyright compensation. However, existing methods in this field, which can be categorized as retraining-based and gradient-based, have struggled with the trade-off between computational efficiency and attribution efficacy. Retraining-based methods can accurately attribute complex non-convex models but are computationally prohibitive, while gradient-based methods are efficient but often fail for non-convex models. Recent research has shown that augmenting gradient-based methods with ensembles of multiple independently trained models can achieve significantly better attribution efficacy. However, this approach remains impractical for very large-scale applications. In this work, we discover that expensive, fully independent training is unnecessary for ensembling the gradient-based methods, and we propose two efficient ensemble strategies, DROPOUT ENSEMBLE and LORA ENSEMBLE, alternative to naive independent ensemble. These strategies significantly reduce training time (up to 80%), serving time (up to 60%), and space cost (up to 80%) while maintaining similar attribution efficacy to the naive independent ensemble. Our extensive experimental results demonstrate that the proposed strategies are effective across multiple TDA methods on diverse datasets and models, including generative settings, significantly advancing the Pareto frontier of TDA methods with better computational efficiency and attribution efficacy.
Abstract（参考訳）: トレーニングデータ属性(TDA)手法は、トレーニングデータポイントがモデル予測に与える影響を定量化することを目的としており、ミスラベル検出、データ選択、著作権補償などのデータ中心AIに広く応用されている。しかし、この分野の既存の手法は、リトレーニングベースと勾配ベースに分類されるが、計算効率と帰属効果のトレードオフに苦慮している。リトレーニングベースの手法は複雑な非凸モデルに正確に対応できるが、計算は禁じられるが、勾配ベースの手法は効率的であるが、非凸モデルではしばしば失敗する。近年の研究では、複数の独立に訓練されたモデルのアンサンブルによる勾配に基づく手法の強化により、帰属効果が著しく向上することが示されている。しかし、このアプローチは大規模アプリケーションでは実用的ではない。そこで本研究では,高コストで完全独立な学習が,勾配に基づく手法のアンサンブルには不要であることに気付き,より効率的なアンサンブル戦略であるDROPOUT ENSEMBLEとLORA ENSEMBLEの2つを提案する。これらの戦略は、トレーニング時間(最大80%)、サービス時間(最大60%)、スペースコスト(最大80%)を著しく削減し、単純で独立したアンサンブルに類似した帰属効果を維持した。提案手法は,多種多様なデータセットやモデルを用いた多種多様なTDA手法に対して有効であることを示すとともに,TDA手法のParetoフロンティアを改良し,計算効率と帰属効率を向上することを示した。

関連論文リスト

R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training [11.213419356901005]
セマンティックな類似性に基づいてトレーニングデータを分割し、よりきめ細かいドメインを作成するフレームワークであるR&Bを紹介する。従来の作業とは異なり、R&Bは損失や勾配などの評価情報を得るために追加の計算を不要にしている。自然言語から推論,マルチモーダルタスクまで,5つの多様なデータセットに対するR&Bの有効性を示す。
論文参考訳（メタデータ） (2025-05-01T07:08:19Z)
A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文参考訳（メタデータ） (2024-11-23T17:35:23Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization [30.738229850748137]
MolPegは、一般化を強化するための分子データプルーニングフレームワークである。これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。 4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
論文参考訳（メタデータ） (2024-09-02T09:06:04Z)
Training Data Attribution via Approximate Unrolled Differentiation [8.87519936904341]
影響関数のような暗黙の微分に基づく手法は、計算的に効率的になるが、過小評価を考慮できない。我々は、影響関数のような公式を用いて計算される近似アンローリングベースのTDA手法であるSourceを紹介する。
論文参考訳（メタデータ） (2024-05-20T17:17:44Z)
Active Transfer Learning for Efficient Video-Specific Human Pose Estimation [16.415080031134366]
ヒューマン・ポース(HP)推定は幅広い応用のために活発に研究されている。本稿では,アクティブラーニング(AL)とトランスファーラーニング(TL)を組み合わせて,HP推定器を個々のビデオ領域に効率よく適応させる手法を提案する。
論文参考訳（メタデータ） (2023-11-08T21:56:29Z)
Reducing Adversarial Training Cost with Gradient Approximation [0.3916094706589679]
そこで本研究では,厳密なモデル構築に要するコストを削減するために,GAAT(グラディエント近似)を用いた対戦訓練法を提案する。提案手法は,データセット上でのモデルテスト精度に比較して,トレーニング時間の最大60%を節約する。
論文参考訳（メタデータ） (2023-09-18T03:55:41Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文参考訳（メタデータ） (2023-05-25T15:46:20Z)
B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文参考訳（メタデータ） (2023-04-20T18:07:19Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。