論文の概要: Generalized Group Data Attribution
- arxiv url: http://arxiv.org/abs/2410.09940v1
- Date: Mon, 21 Oct 2024 14:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:03:30.894329
- Title: Generalized Group Data Attribution
- Title(参考訳): 一般化されたグループデータ属性
- Authors: Dan Ley, Shichang Zhang, Suraj Srinivas, Gili Rusak, Himabindu Lakkaraju,
- Abstract要約: データ属性法は、個々のトレーニングデータポイントがモデル出力に与える影響を定量化する。
既存のDAメソッドはしばしば計算集約的であり、大規模な機械学習モデルに適用性を制限する。
本稿では,GA(Generalized Group Data Attribution, GGDA)フレームワークを紹介する。
- 参考スコア(独自算出の注目度): 28.056149996461286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data Attribution (DA) methods quantify the influence of individual training data points on model outputs and have broad applications such as explainability, data selection, and noisy label identification. However, existing DA methods are often computationally intensive, limiting their applicability to large-scale machine learning models. To address this challenge, we introduce the Generalized Group Data Attribution (GGDA) framework, which computationally simplifies DA by attributing to groups of training points instead of individual ones. GGDA is a general framework that subsumes existing attribution methods and can be applied to new DA techniques as they emerge. It allows users to optimize the trade-off between efficiency and fidelity based on their needs. Our empirical results demonstrate that GGDA applied to popular DA methods such as Influence Functions, TracIn, and TRAK results in upto 10x-50x speedups over standard DA methods while gracefully trading off attribution fidelity. For downstream applications such as dataset pruning and noisy label identification, we demonstrate that GGDA significantly improves computational efficiency and maintains effectiveness, enabling practical applications in large-scale machine learning scenarios that were previously infeasible.
- Abstract(参考訳): データ属性(DA)法は、個々のトレーニングデータポイントがモデル出力に与える影響を定量化し、説明可能性、データ選択、ノイズのあるラベル識別など幅広い用途を持つ。
しかし、既存のDA手法はしばしば計算集約的であり、大規模な機械学習モデルに適用性を制限する。
この課題に対処するために,一般グループデータ属性(GGDA)フレームワークを導入する。
GGDAは、既存の属性メソッドを仮定する一般的なフレームワークであり、新しいDAテクニックが出現するにつれて適用することができる。
ユーザは自分のニーズに応じて効率と忠実さのトレードオフを最適化できる。
実験の結果,GGDAがインフルエンス関数,TracIn,TRAKなどの一般的なDA手法に適用された場合,標準DA手法よりも最大10x-50倍の高速化が得られた。
データセットのプルーニングやノイズラベル識別といったダウンストリームアプリケーションでは,GGDAが計算効率を大幅に向上し,有効性を維持することを示し,これまで実現不可能であった大規模機械学習シナリオの実践的応用を可能にした。
関連論文リスト
- Wireless Channel Aware Data Augmentation Methods for Deep Learning-Based Indoor Localization [22.76179980847908]
本稿では,無線伝搬チャネルやデバイスに関するドメイン知識を活用する手法を提案する。
低データ体制では、ローカライゼーション精度は50%まで上昇し、高データ体制における非増大した結果と一致することを示す。
提案手法は,測定データ量の1/4しか使用せず,最大で33%のハイデータ性能を達成できる。
論文 参考訳(メタデータ) (2024-08-12T19:01:49Z) - Efficient Ensembles Improve Training Data Attribution [12.180392191924758]
トレーニングデータ帰属法は、データ中心AIにおける幅広い応用により、個々のデータポイントがモデル予測に与える影響を定量化することを目的としている。
この分野の既存の手法は、リトレーニングベースとグラデーションベースに分類されるが、有害なトレードオフ帰属効果に苦慮している。
近年の研究では、複数の独立に訓練されたモデルのアンサンブルによる勾配に基づく手法の強化が、より優れた帰属を達成できることが示されている。
論文 参考訳(メタデータ) (2024-05-27T15:58:34Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - Face Presentation Attack Detection by Excavating Causal Clues and
Adapting Embedding Statistics [9.612556145185431]
顔提示攻撃検出(PAD)はドメイン適応(DA)とドメイン一般化(DG)技術を用いて未知のドメインの性能劣化に対処する。
ほとんどのDGベースのPADソリューションは、プライオリ、すなわち既知のドメインラベルに依存している。
本稿では、因果的観点から複合DGタスクとして顔PADをモデル化し、モデル最適化にリンクすることを提案する。
論文 参考訳(メタデータ) (2023-08-28T13:11:05Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance
Text Classification [34.15923302216751]
本稿では,効率的なテキスト分類を支援するための簡易でプラグイン型のデータ拡張フレームワーク EPiDA を提案する。
EPiDAは、データ生成を制御するために、相対エントロピー(REM)と条件最小エントロピー(CEM)の2つのメカニズムを採用している。
EPiDAは効率的な分類訓練のための効率的で継続的なデータ生成をサポートする。
論文 参考訳(メタデータ) (2022-04-24T06:53:48Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。