Fugu-MT 論文翻訳(概要): Final-Model-Only Data Attribution with a Unifying View of Gradient-Based Methods

論文の概要: Final-Model-Only Data Attribution with a Unifying View of Gradient-Based Methods

arxiv url: http://arxiv.org/abs/2412.03906v1
Date: Thu, 05 Dec 2024 06:24:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.916705
Title: Final-Model-Only Data Attribution with a Unifying View of Gradient-Based Methods
Title（参考訳）: 勾配法を統一した最終モデル専用データ属性
Authors: Dennis Wei, Inkit Padhi, Soumya Ghosh, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy, Maria Chang,
Abstract要約: トレーニングデータ属性(TDA)は、トレーニングデータの要素にモデルの振る舞いを帰属させるタスクである。本稿では,最終学習モデルにのみアクセス可能な共通環境に注目した。本稿では,適切な調整と平均化を施したさらなるトレーニングを提案し,トレーニングインスタンスに対する与えられたモデルの感度を計測する。
参考スコア（独自算出の注目度）: 30.830529904506744
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training data attribution (TDA) is the task of attributing model behavior to elements in the training data. This paper draws attention to the common setting where one has access only to the final trained model, and not the training algorithm or intermediate information from training. To serve as a gold standard for TDA in this "final-model-only" setting, we propose further training, with appropriate adjustment and averaging, to measure the sensitivity of the given model to training instances. We then unify existing gradient-based methods for TDA by showing that they all approximate the further training gold standard in different ways. We investigate empirically the quality of these gradient-based approximations to further training, for tabular, image, and text datasets and models. We find that the approximation quality of first-order methods is sometimes high but decays with the amount of further training. In contrast, the approximations given by influence function methods are more stable but surprisingly lower in quality.
Abstract（参考訳）: トレーニングデータ属性(TDA)は、トレーニングデータの要素にモデルの振る舞いを帰属させるタスクである。本稿では,トレーニングアルゴリズムや中間情報ではなく,最終訓練モデルにのみアクセス可能な共通設定に注目した。この「最終モデルのみ」設定において、TDAのゴールドスタンダードとして機能するために、適切な調整と平均化を行い、与えられたモデルのトレーニングインスタンスに対する感度を測定するための更なるトレーニングを提案する。次に、TDAの既存の勾配に基づく手法を統一し、それらがそれぞれ異なる方法でさらなる訓練金標準を近似することを示します。本研究では、これらの勾配に基づく近似の質を実験的に検証し、さらに学習し、表、画像、テキストのデータセットとモデルについて検討する。 1次法の近似品質は、時として高いが、さらなる訓練の量で低下する。対照的に、影響関数法によって与えられる近似はより安定であるが、驚くほど低い品質である。

関連論文リスト

Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文参考訳（メタデータ） (2024-07-11T18:01:58Z)
Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning [89.98353600316285]
擬似ラベルサンプリングのモデル化プロセスに不確実性を導入し、各クラスにおけるモデル性能が異なる訓練段階によって異なることを考慮した。このアプローチにより、モデルは異なる訓練段階における擬似ラベルの不確かさを認識でき、それによって異なるクラスの選択閾値を適応的に調整できる。 FixMatchのような他の手法と比較して、UDTSは自然シーン画像データセットの精度を少なくとも5.26%、1.75%、9.96%、1.28%向上させる。
論文参考訳（メタデータ） (2024-01-09T08:59:39Z)
FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-23T17:12:01Z)
Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。 CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:28:29Z)
A Simple Baseline that Questions the Use of Pretrained-Models in Continual Learning [30.023047201419825]
いくつかの手法は、事前訓練された表現に基づいて連続学習機構を設計し、継続学習のトレーニング中に最小限のアップデートやバックボーンモデルの更新を許可しない。我々は、事前訓練された特徴抽出器自体が、Split-CIFAR100およびCoRe 50ベンチマーク上での競争力や継続学習性能を達成するのに十分な強度を持つと論じる。このベースラインは10-Split-CIFAR-100で88.53%を達成した。
論文参考訳（メタデータ） (2022-10-10T04:19:53Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)
Estimating Training Data Influence by Tracing Gradient Descent [21.94989239842377]
TracInは、モデルの予測に対するトレーニング例の影響を計算する。 TracInは実装が簡単で、必要なのは非依存の損失関数を動作させることだけだ。
論文参考訳（メタデータ） (2020-02-19T22:40:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。