論文の概要: In-Context Probing Approximates Influence Function for Data Valuation
- arxiv url: http://arxiv.org/abs/2407.12259v1
- Date: Wed, 17 Jul 2024 02:06:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:49:00.091465
- Title: In-Context Probing Approximates Influence Function for Data Valuation
- Title(参考訳): データ評価のための文脈内探索近似関数の影響
- Authors: Cathy Jiao, Gary Gao, Chenyan Xiong,
- Abstract要約: そこで本研究では,文脈内探索によるデータ評価が,学習データ選択に影響を及ぼすことを示す。
実験結果から, 文脈内探索と勾配に基づく影響フレームワークは, トレーニングデータのランク付け方法に類似していることがわかった。
- 参考スコア(独自算出の注目度): 16.404477234171733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data valuation quantifies the value of training data, and is used for data attribution (i.e., determining the contribution of training data towards model predictions), and data selection; both of which are important for curating high-quality datasets to train large language models. In our paper, we show that data valuation through in-context probing (i.e., prompting a LLM) approximates influence functions for selecting training data. We provide a theoretical sketch on this connection based on transformer models performing "implicit" gradient descent on its in-context inputs. Our empirical findings show that in-context probing and gradient-based influence frameworks are similar in how they rank training data. Furthermore, fine-tuning experiments on data selected by either method reveal similar model performance.
- Abstract(参考訳): データバリュエーションは、トレーニングデータの価値を定量化し、データ属性(すなわち、モデルの予測に対するトレーニングデータの貢献を決定する)やデータ選択に使用される。
本稿では,テキスト内探索(LLM)によるデータ評価が,学習データを選択するための影響関数を近似することを示す。
この接続に関する理論的スケッチは、コンテクスト内入力に対して「単純」勾配降下を行うトランスフォーマーモデルに基づくものである。
実験結果から, 文脈内探索と勾配に基づく影響フレームワークは, トレーニングデータのランク付け方法に類似していることがわかった。
さらに、どちらの手法でも選択されたデータに対する微調整実験により、類似したモデル性能が明らかとなった。
関連論文リスト
- LMD3: Language Model Data Density Dependence [78.76731603461832]
我々は,学習データ密度推定に基づいて,言語モデルタスクのパフォーマンスを個別の例レベルで解析する手法を開発した。
微調整データに対する制御的介入としてパラフレーズを用いた実験は、特定のテストクエリに対するトレーニング分布のサポートの増加が、測定可能な密度の増加をもたらすことを示した。
我々は,学習データのサブセットに対象モデルの予測が依存していることの統計的証拠を提供することができると結論付けた。
論文 参考訳(メタデータ) (2024-05-10T09:03:27Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Training Data Attribution for Diffusion Models [1.1733780065300188]
そこで本研究では,アンサンブルを用いて学習データが拡散モデルの出力にどのように影響するかを明らかにする新しい手法を提案する。
我々のアプローチでは、エンコードされたアンサンブル内の個々のモデルは、影響のあるトレーニング例の識別を可能にするために、訓練データ全体の分割を慎重に設計した上で訓練される。
得られたモデルアンサンブルは、トレーニングデータの影響の効率的なアブレーションを可能にし、トレーニングデータがモデル出力に与える影響を評価する。
論文 参考訳(メタデータ) (2023-06-03T18:36:12Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Understanding Influence Functions and Datamodels via Harmonic Analysis [36.86262318584668]
個々のデータポイントがテストデータに対するモデルの予測に与える影響を推定する。
それらは、データ中毒の検出、有用で有害な例の検出、データポイントのグループの影響などに使われる。
近年、Ilyasら[2022]は、データモデルと呼ばれる線形回帰手法を導入し、テストデータに対するトレーニングポイントの効果を予測した。
本稿では,このような興味深い経験的現象の理論的理解を深めることを目的とする。
論文 参考訳(メタデータ) (2022-10-03T16:45:33Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。