論文の概要: In-Context Probing Approximates Influence Function for Data Valuation
- arxiv url: http://arxiv.org/abs/2407.12259v1
- Date: Wed, 17 Jul 2024 02:06:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:49:00.091465
- Title: In-Context Probing Approximates Influence Function for Data Valuation
- Title(参考訳): データ評価のための文脈内探索近似関数の影響
- Authors: Cathy Jiao, Gary Gao, Chenyan Xiong,
- Abstract要約: そこで本研究では,文脈内探索によるデータ評価が,学習データ選択に影響を及ぼすことを示す。
実験結果から, 文脈内探索と勾配に基づく影響フレームワークは, トレーニングデータのランク付け方法に類似していることがわかった。
- 参考スコア(独自算出の注目度): 16.404477234171733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data valuation quantifies the value of training data, and is used for data attribution (i.e., determining the contribution of training data towards model predictions), and data selection; both of which are important for curating high-quality datasets to train large language models. In our paper, we show that data valuation through in-context probing (i.e., prompting a LLM) approximates influence functions for selecting training data. We provide a theoretical sketch on this connection based on transformer models performing "implicit" gradient descent on its in-context inputs. Our empirical findings show that in-context probing and gradient-based influence frameworks are similar in how they rank training data. Furthermore, fine-tuning experiments on data selected by either method reveal similar model performance.
- Abstract(参考訳): データバリュエーションは、トレーニングデータの価値を定量化し、データ属性(すなわち、モデルの予測に対するトレーニングデータの貢献を決定する)やデータ選択に使用される。
本稿では,テキスト内探索(LLM)によるデータ評価が,学習データを選択するための影響関数を近似することを示す。
この接続に関する理論的スケッチは、コンテクスト内入力に対して「単純」勾配降下を行うトランスフォーマーモデルに基づくものである。
実験結果から, 文脈内探索と勾配に基づく影響フレームワークは, トレーニングデータのランク付け方法に類似していることがわかった。
さらに、どちらの手法でも選択されたデータに対する微調整実験により、類似したモデル性能が明らかとなった。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Dataset Distillation-based Hybrid Federated Learning on Non-IID Data [19.01147151081893]
本稿では,データセット蒸留を統合して,独立および等分散(IID)データを生成するハイブリッド・フェデレーション学習フレームワークHFLDDを提案する。
クライアントを異種クラスタに分割し、クラスタ内の異なるクライアント間でのデータラベルがバランスが取れないようにします。
このトレーニングプロセスは、従来のIDデータに対するフェデレーション学習に似ているため、モデルトレーニングにおける非IIDデータの影響を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-26T03:52:41Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - A Universal Metric of Dataset Similarity for Cross-silo Federated Learning [0.0]
フェデレートラーニングは、データ共有なしにモデルトレーニングを容易にするために、医療などの分野でますます使われている。
本稿では,データセットの類似性を評価するための新しい指標を提案する。
本稿では,我々の測定値がモデル性能と堅牢かつ解釈可能な関係を示し,プライバシ保護方式で計算可能であることを示す。
論文 参考訳(メタデータ) (2024-04-29T15:08:24Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Deep Stable Learning for Out-Of-Distribution Generalization [27.437046504902938]
深層ニューラルネットワークに基づくアプローチは、同様の分布を持つデータとトレーニングデータをテストする際に顕著なパフォーマンスを達成した。
トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンス向上の深層モデルの構築に不可欠です。
トレーニングサンプルの学習重みによる特徴間の依存関係を除去し,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-16T03:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。