論文の概要: What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions
- arxiv url: http://arxiv.org/abs/2405.13954v1
- Date: Wed, 22 May 2024 19:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 20:23:46.665865
- Title: What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions
- Title(参考訳): GPTにとってのデータの価値は何か? LLM-Scale Data Valuation with Influence Function
- Authors: Sang Keun Choe, Hwijeen Ahn, Juhan Bae, Kewen Zhao, Minsoo Kang, Youngseog Chung, Adithya Pratapa, Willie Neiswanger, Emma Strubell, Teruko Mitamura, Jeff Schneider, Eduard Hovy, Roger Grosse, Eric Xing,
- Abstract要約: 大規模な言語モデル(LLM)は、膨大な量の人間が書いたデータに基づいて訓練されているが、データプロバイダはしばしば信頼できないままである。
本研究では,勾配に基づくデータ評価手法であるインフルエンス関数に着目し,その拡張性を大幅に改善する。
既存のトレーニングコードを最小限の労力でデータバリュエーションコードに変換するソフトウェアパッケージであるLogIXも導入しています。
- 参考スコア(独自算出の注目度): 34.99034454081842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are trained on a vast amount of human-written data, but data providers often remain uncredited. In response to this issue, data valuation (or data attribution), which quantifies the contribution or value of each data to the model output, has been discussed as a potential solution. Nevertheless, applying existing data valuation methods to recent LLMs and their vast training datasets has been largely limited by prohibitive compute and memory costs. In this work, we focus on influence functions, a popular gradient-based data valuation method, and significantly improve its scalability with an efficient gradient projection strategy called LoGra that leverages the gradient structure in backpropagation. We then provide a theoretical motivation of gradient projection approaches to influence functions to promote trust in the data valuation process. Lastly, we lower the barrier to implementing data valuation systems by introducing LogIX, a software package that can transform existing training code into data valuation code with minimal effort. In our data valuation experiments, LoGra achieves competitive accuracy against more expensive baselines while showing up to 6,500x improvement in throughput and 5x reduction in GPU memory usage when applied to Llama3-8B-Instruct and the 1B-token dataset.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、膨大な量の人間が書いたデータに基づいて訓練されているが、データプロバイダはしばしば信頼できないままである。
この問題に対して、モデル出力に対する各データの貢献や価値を定量化するデータアトリビューション(あるいはデータアトリビューション)が、潜在的な解決策として議論されてきた。
それにもかかわらず、最近のLLMやその膨大なトレーニングデータセットに既存のデータ評価手法を適用することは、計算とメモリの禁止コストによって大きく制限されている。
本研究では,バックプロパゲーションにおける勾配構造を利用するLoGraと呼ばれる効率的な勾配予測手法を用いて,インフルエンス関数,一般的な勾配に基づくデータアセスメント手法に着目し,そのスケーラビリティを著しく向上する。
次に、データアセスメントプロセスにおける信頼を促進するために、関数に影響を与える勾配予測アプローチの理論的動機を提供する。
最後に、既存のトレーニングコードを最小限の労力でデータバリュエーションコードに変換するソフトウェアパッケージであるLogIXを導入することで、データバリュエーションシステムの実装に対する障壁を低くする。
データ評価実験では、Llama3-8B-Instructと1B-tokenデータセットに適用すると、スループットが最大6,500倍向上し、GPUメモリ使用量が最大5倍削減される一方で、より高価なベースラインに対する競合精度が達成される。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - GraphGuard: Detecting and Counteracting Training Data Misuse in Graph
Neural Networks [69.97213941893351]
グラフデータ分析におけるグラフニューラルネットワーク(GNN)の出現は、モデルトレーニング中のデータ誤用に関する重要な懸念を引き起こしている。
既存の手法は、データ誤用検出または緩和のいずれかに対応しており、主にローカルGNNモデル用に設計されている。
本稿では,これらの課題に対処するため,GraphGuardという先駆的なアプローチを導入する。
論文 参考訳(メタデータ) (2023-12-13T02:59:37Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value [17.340091573913316]
本研究では,バッジモデルのためのデータ評価手法であるData-OOBを提案する。
Data-OOBは、評価に106ドルのサンプルがあり、入力寸法が100である場合、1つのCPUプロセッサで2.25時間未満である。
提案手法は,誤ラベル付きデータを識別し,有用な(あるいは有害な)データポイントの集合を見出すことで,既存の最先端データ評価手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-16T08:03:58Z) - Fairness-Aware Data Valuation for Supervised Learning [4.874780144224057]
本研究では,Fairness-Aware Data vauatiOn (FADO)を提案する。
FADOを不公平化前処理技術の基礎として活用する方法を示す。
提案手法は,最大40ppの公正度を,ベースラインに比べて性能が1pp以下で向上することを示す。
論文 参考訳(メタデータ) (2023-03-29T18:51:13Z) - Experimenting with an Evaluation Framework for Imbalanced Data Learning
(EFIDL) [9.010643838773477]
データ不均衡は,ラベルの少ないビッグデータ分析において重要な問題のひとつだ。
機械学習アルゴリズムの性能を改善するために、多くのデータバランス法が導入された。
我々は不均衡なデータ学習のための新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-26T01:16:02Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Graph Backup: Data Efficient Backup Exploiting Markovian Transitions [24.765707880860543]
データ効率のよいRLの鍵は、良い値の推定であるが、現在の手法では、環境から収集された軌道データの構造を完全に活用できない。
本稿では,MDPの遷移データをグラフとして扱い,新しいバックアップ演算子であるグラフバックアップを定義する。
提案手法は,一般的な値ベース手法と組み合わせることで,データ効率のよいRLベンチマークスイート上での一段階法と多段階法よりも性能が向上する。
論文 参考訳(メタデータ) (2022-05-31T14:26:00Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。