論文の概要: Data Valuation for LLM Fine-Tuning: Efficient Shapley Value Approximation via Language Model Arithmetic
- arxiv url: http://arxiv.org/abs/2512.15765v1
- Date: Fri, 12 Dec 2025 10:13:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.679124
- Title: Data Valuation for LLM Fine-Tuning: Efficient Shapley Value Approximation via Language Model Arithmetic
- Title(参考訳): LLMファインチューニングのためのデータ評価:言語モデルによる効率的な共有値近似
- Authors: Mélissa Tamine, Otmane Sakhi, Benjamin Heymann,
- Abstract要約: DPOの具体的な数学的構造は、Shapley値のスケーラブルな計算を可能にしていることを示す。
この観察によって、データバリュエーションと大規模言語モデルの交わりで、多くのアプリケーションが解き放たれると信じています。
- 参考スコア(独自算出の注目度): 5.034086684884974
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data is a critical asset for training large language models (LLMs), alongside compute resources and skilled workers. While some training data is publicly available, substantial investment is required to generate proprietary datasets, such as human preference annotations or to curate new ones from existing sources. As larger datasets generally yield better model performance, two natural questions arise. First, how can data owners make informed decisions about curation strategies and data sources investment? Second, how can multiple data owners collaboratively pool their resources to train superior models while fairly distributing the benefits? This problem, data valuation, which is not specific to large language models, has been addressed by the machine learning community through the lens of cooperative game theory, with the Shapley value being the prevalent solution concept. However, computing Shapley values is notoriously expensive for data valuation, typically requiring numerous model retrainings, which can become prohibitive for large machine learning models. In this work, we demonstrate that this computational challenge is dramatically simplified for LLMs trained with Direct Preference Optimization (DPO). We show how the specific mathematical structure of DPO enables scalable Shapley value computation. We believe this observation unlocks many applications at the intersection of data valuation and large language models.
- Abstract(参考訳): データは計算資源と熟練労働者とともに、大きな言語モデル(LLM)をトレーニングするための重要な資産である。
いくつかのトレーニングデータは公開されていますが、人間の好みのアノテーションや既存のソースから新しいデータセットをキュレートするなど、プロプライエタリなデータセットを生成するにはかなりの投資が必要です。
大きなデータセットは一般的にモデルのパフォーマンスが向上するので、2つの自然な疑問が生まれます。
まず、データ所有者は、キュレーション戦略やデータソース投資について、どのように情報決定を下すことができるのか?
第2に、複数のデータ所有者が協調してリソースをプールして、優れたモデルをトレーニングし、そのメリットを公平に分散させるにはどうすればよいか?
この問題は、大規模な言語モデルに特化していないデータ評価であり、協調ゲーム理論のレンズを通して機械学習コミュニティによって解決されてきた。
しかし、Shapley値の計算は、データバリュエーションには高いことで知られており、大きめの機械学習モデルでは禁じられるような、多くのモデル再トレーニングを必要としている。
本研究では,DPO(Direct Preference Optimization)を用いて学習したLLMに対して,この計算課題が劇的に単純化されたことを実証する。
DPOの具体的な数学的構造が,スケーラブルなShapley値計算を実現する方法を示す。
この観察によって、データバリュエーションと大規模言語モデルの交わりで、多くのアプリケーションが解き放たれると信じています。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [24.00172524434103]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。
提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。
この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-22T02:46:03Z) - DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Deep Learning with Multiple Data Set: A Weighted Goal Programming
Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。
ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。
本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。