論文の概要: On the Feasibility of In-Context Probing for Data Attribution
- arxiv url: http://arxiv.org/abs/2407.12259v2
- Date: Mon, 10 Feb 2025 19:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 17:19:43.744770
- Title: On the Feasibility of In-Context Probing for Data Attribution
- Title(参考訳): データアトリビューションのためのインコンテキスト・プロービングの可能性について
- Authors: Cathy Jiao, Gary Gao, Aditi Raghunathan, Chenyan Xiong,
- Abstract要約: In-context Probing (ICP) は勾配に基づくデータ属性の高速プロキシとして機能することを示す。
ICPと勾配に基づくデータ属性は、トレーニングデータと類似したタスクタイプとコンテンツを共有するタスクに対して、影響のあるトレーニングデータを特定する上で、よく相関していることを示す。
- 参考スコア(独自算出の注目度): 26.08513296229126
- License:
- Abstract: Data attribution methods are used to measure the contribution of training data towards model outputs, and have several important applications in areas such as dataset curation and model interpretability. However, many standard data attribution methods, such as influence functions, utilize model gradients and are computationally expensive. In our paper, we show in-context probing (ICP) -- prompting a LLM -- can serve as a fast proxy for gradient-based data attribution for data selection under conditions contingent on data similarity. We study this connection empirically on standard NLP tasks, and show that ICP and gradient-based data attribution are well-correlated in identifying influential training data for tasks that share similar task type and content as the training data. Additionally, fine-tuning models on influential data selected by both methods achieves comparable downstream performance, further emphasizing their similarities. We also examine the connection between ICP and gradient-based data attribution using synthetic data on linear regression tasks. Our synthetic data experiments show similar results with those from NLP tasks, suggesting that this connection can be isolated in simpler settings, which offers a pathway to bridging their differences.
- Abstract(参考訳): データ属性法は、トレーニングデータのモデル出力への寄与を測定するために使用され、データセットのキュレーションやモデル解釈可能性といった分野で重要な応用がいくつかある。
しかし、影響関数のような標準的なデータ帰属法の多くはモデル勾配を利用しており、計算コストが高い。
本稿では,データ類似性に起因した条件下でのデータ選択に対する勾配に基づくデータ属性の高速プロキシとして,ICP(In-context Probing)が有効であることを示す。
我々は、この接続を標準のNLPタスクで実証的に研究し、ICPと勾配に基づくデータ属性が、類似したタスクタイプとコンテンツを共有するタスクに対して、影響のあるトレーニングデータをトレーニングデータとして識別するのによく関連していることを示す。
さらに、両方の手法によって選択された影響データに対する微調整モデルは、同等のダウンストリーム性能を達成し、それらの類似性をさらに強調する。
また、線形回帰タスクの合成データを用いて、ICPと勾配に基づくデータ属性の関連性についても検討した。
我々の合成データ実験はNLPタスクと類似した結果を示し、この接続を単純な設定で分離できることが示唆された。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Dataset Distillation-based Hybrid Federated Learning on Non-IID Data [19.01147151081893]
本稿では,データセット蒸留を統合して,独立および等分散(IID)データを生成するハイブリッド・フェデレーション学習フレームワークHFLDDを提案する。
クライアントを異種クラスタに分割し、クラスタ内の異なるクライアント間でのデータラベルがバランスが取れないようにします。
このトレーニングプロセスは、従来のIDデータに対するフェデレーション学習に似ているため、モデルトレーニングにおける非IIDデータの影響を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-26T03:52:41Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - A Universal Metric of Dataset Similarity for Cross-silo Federated Learning [0.0]
フェデレートラーニングは、データ共有なしにモデルトレーニングを容易にするために、医療などの分野でますます使われている。
本稿では,データセットの類似性を評価するための新しい指標を提案する。
本稿では,我々の測定値がモデル性能と堅牢かつ解釈可能な関係を示し,プライバシ保護方式で計算可能であることを示す。
論文 参考訳(メタデータ) (2024-04-29T15:08:24Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Deep Stable Learning for Out-Of-Distribution Generalization [27.437046504902938]
深層ニューラルネットワークに基づくアプローチは、同様の分布を持つデータとトレーニングデータをテストする際に顕著なパフォーマンスを達成した。
トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンス向上の深層モデルの構築に不可欠です。
トレーニングサンプルの学習重みによる特徴間の依存関係を除去し,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-16T03:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。