論文の概要: Understanding Influence Functions and Datamodels via Harmonic Analysis
- arxiv url: http://arxiv.org/abs/2210.01072v1
- Date: Mon, 3 Oct 2022 16:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:57:56.558226
- Title: Understanding Influence Functions and Datamodels via Harmonic Analysis
- Title(参考訳): 調和解析による影響関数とデータモデルの理解
- Authors: Nikunj Saunshi, Arushi Gupta, Mark Braverman, Sanjeev Arora
- Abstract要約: 個々のデータポイントがテストデータに対するモデルの予測に与える影響を推定する。
それらは、データ中毒の検出、有用で有害な例の検出、データポイントのグループの影響などに使われる。
近年、Ilyasら[2022]は、データモデルと呼ばれる線形回帰手法を導入し、テストデータに対するトレーニングポイントの効果を予測した。
本稿では,このような興味深い経験的現象の理論的理解を深めることを目的とする。
- 参考スコア(独自算出の注目度): 36.86262318584668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Influence functions estimate effect of individual data points on predictions
of the model on test data and were adapted to deep learning in Koh and Liang
[2017]. They have been used for detecting data poisoning, detecting helpful and
harmful examples, influence of groups of datapoints, etc. Recently, Ilyas et
al. [2022] introduced a linear regression method they termed datamodels to
predict the effect of training points on outputs on test data. The current
paper seeks to provide a better theoretical understanding of such interesting
empirical phenomena. The primary tool is harmonic analysis and the idea of
noise stability. Contributions include: (a) Exact characterization of the
learnt datamodel in terms of Fourier coefficients. (b) An efficient method to
estimate the residual error and quality of the optimum linear datamodel without
having to train the datamodel. (c) New insights into when influences of groups
of datapoints may or may not add up linearly.
- Abstract(参考訳): 個々のデータポイントの影響関数がテストデータに対するモデルの予測に及ぼす影響を推定し、kohとliang [2017] のディープラーニングに適用した。
それらは、データ中毒の検出、有用で有害な例の検出、データポイントのグループの影響などに使われる。
最近では ilyasらも参加している。
2022] テストデータに対するトレーニングポイントの効果を予測するために, データモデルと呼ばれる線形回帰手法を導入した。
現在の論文は、このような興味深い経験的現象をよりよく理論的に理解することを目指している。
主なツールは調和解析と雑音安定性の考え方である。
貢献は以下の通り。
(a)フーリエ係数の観点から学習データモデルの具体的特徴付けを行う。
b) 最適線形データモデルの残差と品質を,データモデルの訓練を必要とせずに効率的に推定する方法。
(c)データポイントのグループの影響が線形に積み重ねられるかどうかに関する新たな知見。
関連論文リスト
- Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - In-Context Probing Approximates Influence Function for Data Valuation [16.404477234171733]
そこで本研究では,文脈内探索によるデータ評価が,学習データ選択に影響を及ぼすことを示す。
実験結果から, 文脈内探索と勾配に基づく影響フレームワークは, トレーニングデータのランク付け方法に類似していることがわかった。
論文 参考訳(メタデータ) (2024-07-17T02:06:56Z) - Explainability of Machine Learning Models under Missing Data [2.880748930766428]
データ不足は、モデルの性能と解釈可能性を著しく損なうおそれのある問題である。
本稿では, 欠落データ分野の展開を要約し, 種々の計算法がシェープリー値の計算に与える影響について考察する。
論文 参考訳(メタデータ) (2024-06-29T11:31:09Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。