Fugu-MT 論文翻訳(概要): Training Data Influence Analysis and Estimation: A Survey

論文の概要: Training Data Influence Analysis and Estimation: A Survey

arxiv url: http://arxiv.org/abs/2212.04612v1
Date: Fri, 9 Dec 2022 00:32:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-12 15:38:45.748154
Title: Training Data Influence Analysis and Estimation: A Survey
Title（参考訳）: トレーニングデータの影響分析と推定:調査
Authors: Zayd Hammoudeh, Daniel Lowd
Abstract要約: トレーニングデータの影響分析と推定に関する総合的な調査を初めて実施する。我々は、最先端の影響分析手法を分類学に編成する。本研究では,影響分析をより効果的に活用するための今後の研究の方向性を提案する。
参考スコア（独自算出の注目度）: 11.663072799764542
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Good models require good training data. For overparameterized deep models, the causal relationship between training data and model predictions is increasingly opaque and poorly understood. Influence analysis partially demystifies training's underlying interactions by quantifying the amount each training instance alters the final model. Measuring the training data's influence exactly can be provably hard in the worst case; this has led to the development and use of influence estimators, which only approximate the true influence. This paper provides the first comprehensive survey of training data influence analysis and estimation. We begin by formalizing the various, and in places orthogonal, definitions of training data influence. We then organize state-of-the-art influence analysis methods into a taxonomy; we describe each of these methods in detail and compare their underlying assumptions, asymptotic complexities, and overall strengths and weaknesses. Finally, we propose future research directions to make influence analysis more useful in practice as well as more theoretically and empirically sound. A curated, up-to-date list of resources related to influence analysis is available at https://github.com/ZaydH/influence_analysis_papers.
Abstract（参考訳）: 良いモデルには良いトレーニングデータが必要です。過剰パラメータの深層モデルでは、トレーニングデータとモデル予測の間の因果関係はますます不透明で理解されていない。影響分析は、各トレーニングインスタンスが最終モデルを変更する量を定量化することで、トレーニングの基盤となるインタラクションを部分的に否定する。トレーニングデータの影響を正確に測定することは、最悪の場合、確実に難しいことであり、これは、真の影響を近似するだけの影響推定器の開発と使用につながった。本稿では,トレーニングデータの影響分析と推定に関する総合的な調査を行う。我々はまず、さまざまな、直交する場所で、トレーニングデータの影響の定義を形式化することから始める。それぞれの手法を詳細に説明し,それらの前提,漸近的複雑度,全体的な強みと弱さを比較した。最後に, 影響分析を実践上, 理論上, 経験的にも有用にするための今後の研究指針を提案する。影響分析に関する最新のリソースのリストはhttps://github.com/ZaydH/influence_analysis_papersで公開されている。

関連論文リスト

Z0-Inf: Zeroth Order Approximation for Data Influence [47.682602051124235]
トレーニングデータの影響を推定するための高効率ゼロ階近似を導入する。提案手法は, 微調整された大規模言語モデルに対して, 自己影響を推定し, 列車試験の影響を推定する上で, 自己影響を推定する上で優れた精度を実現する。
論文参考訳（メタデータ） (2025-10-13T18:30:37Z)
Revisiting Data Attribution for Influence Functions [13.88866465448849]
本稿では,ディープラーニングにおける影響関数のデータ帰属能力について概説する。提案手法の理論的基礎, 効率的な逆ヘッセンベクトル積推定のためのアルゴリズムの最近の進歩, およびデータ帰属と誤ラベル検出の有効性について考察する。
論文参考訳（メタデータ） (2025-08-10T11:15:07Z)
Small-to-Large Generalization: Data Influences Models Consistently Across Scale [76.87199303408161]
小規模および大規模言語モデル予測(一般的には)は、トレーニングデータの選択に非常に相関している。また、データ属性とデータセット選択という2つの下流プロキシモデルアプリケーションにおいて、プロキシスケールが有効性にどのように影響するかを特徴付ける。
論文参考訳（メタデータ） (2025-05-22T05:50:19Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
Explainability of Machine Learning Models under Missing Data [2.880748930766428]
データ不足は、モデルの性能と解釈可能性を著しく損なうおそれのある問題である。本稿では, 欠落データ分野の展開を要約し, 種々の計算法がシェープリー値の計算に与える影響について考察する。
論文参考訳（メタデータ） (2024-06-29T11:31:09Z)
Towards Understanding the Influence of Training Samples on Explanations [5.695152528716705]
説明可能なAI(XAI)は、AIシステムの意思決定を分析するために広く使われている。予期せぬ説明が発生した場合、ユーザーはそれらを形作るトレーニングデータプロパティを理解したいかもしれない。データ評価の領域では、データサンプルが与えられたモデルに与える影響を推定する最初のアプローチが提案されている。
論文参考訳（メタデータ） (2024-06-05T07:20:06Z)
Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文参考訳（メタデータ） (2024-05-06T21:34:46Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文参考訳（メタデータ） (2024-02-14T03:43:05Z)
Understanding Influence Functions and Datamodels via Harmonic Analysis [36.86262318584668]
個々のデータポイントがテストデータに対するモデルの予測に与える影響を推定する。それらは、データ中毒の検出、有用で有害な例の検出、データポイントのグループの影響などに使われる。近年、Ilyasら[2022]は、データモデルと呼ばれる線形回帰手法を導入し、テストデータに対するトレーニングポイントの効果を予測した。本稿では,このような興味深い経験的現象の理論的理解を深めることを目的とする。
論文参考訳（メタデータ） (2022-10-03T16:45:33Z)
Measuring Causal Effects of Data Statistics on Language Model's `Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文参考訳（メタデータ） (2022-07-28T17:36:24Z)
Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。近年の文献では、この目標を達成するために表現学習を探求している。因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文参考訳（メタデータ） (2020-10-23T19:06:03Z)
Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。影響評価は浅いネットワークではかなり正確ですヘッセン正則化は、高品質な影響推定を得るために重要である。
論文参考訳（メタデータ） (2020-06-25T18:25:59Z)
Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文参考訳（メタデータ） (2020-02-24T19:01:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。