論文の概要: Utility-Aware Data Pricing: Token-Level Quality and Empirical Training Gain for LLMs
- arxiv url: http://arxiv.org/abs/2604.22893v1
- Date: Fri, 24 Apr 2026 10:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.036265
- Title: Utility-Aware Data Pricing: Token-Level Quality and Empirical Training Gain for LLMs
- Title(参考訳): 実用性に配慮したデータ価格:LLMのトーケンレベル品質と実証訓練
- Authors: Minghui Xu, Qi Luo, Kun Li,
- Abstract要約: 本稿では,静的会計からユーティリティベースの価格へ移行する動的データ評価フレームワークを提案する。
提案手法は,(1)シャノンエントロピーとデータ品質スコアを用いたトークンレベルの情報密度測定,(2)影響関数,プロキシモデル戦略,およびデータシェープ値による経験的トレーニング取得,(3)ハッシュベースのコミットメントによる暗号的検証性,メルクルツリー,およびタンパー記述型トレーニング台帳の3層で運用されている。
- 参考スコア(独自算出の注目度): 13.267928147990098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional data valuation methods based on ``row-count $\times$ quality coefficient'' paradigms fail to capture the nuanced, nonlinear contributions that data makes to Large Language Model (LLM) capabilities. This paper presents a dynamic data valuation framework that transitions from static accounting to utility-based pricing. Our approach operates on three layers: (1) token-level information density metrics using Shannon entropy and Data Quality Scores; (2) empirical training gain measurement through influence functions, proxy model strategies, and Data Shapley values; and (3) cryptographic verifiability through hash-based commitments, Merkle trees, and a tamper-evident training ledger. We provide comprehensive experimental validation on three real domains (instruction following, mathematical reasoning, and code summarization), demonstrating that proxy-based empirical gain achieves near-perfect ranking alignment with realized utility, substantially outperforming row-count and token-count baselines. This framework enables a fair Data-as-a-Service economy where high-reasoning data is priced according to its actual contribution to model intelligence, while providing the transparency and auditability necessary for trustworthy data markets.
- Abstract(参考訳): ``row-count $\times$ quality coefficient'''のパラダイムに基づく従来のデータ評価手法では、データがLLM(Large Language Model)機能にもたらす不規則で非線形なコントリビューションをキャプチャできない。
本稿では,静的会計からユーティリティベースの価格へ移行する動的データ評価フレームワークを提案する。
提案手法は,(1)シャノンエントロピーとデータ品質スコアを用いたトークンレベルの情報密度測定,(2)影響関数,プロキシモデル戦略,およびデータシェープ値による経験的トレーニング取得,(3)ハッシュベースのコミットメントによる暗号的検証性,メルクルツリー,およびタンパー記述型トレーニング台帳の3層で動作する。
本稿では,3つの実領域(命令追従,数学的推論,コード要約)を総合的に検証し,プロキシベースの経験的ゲインが実効性とほぼ完璧なランキングアライメントを実現し,行数およびトークン数ベースラインを大幅に上回ることを示す。
このフレームワークは、信頼できるデータ市場に必要な透明性と監査性を提供しながら、モデルインテリジェンスへの実際の貢献に応じて、高レベルのデータが価格設定される公正なデータ・アズ・ア・サービス経済を可能にします。
関連論文リスト
- Reliable and Reproducible Demographic Inference for Fairness in Face Analysis [63.46525489354455]
本稿では、従来のエンドツーエンドトレーニングをモジュラートランスファー学習アプローチで置き換える、完全に再現可能なDAIパイプラインを提案する。
このパイプラインは、正確性、公正性、そしてアイデンティティ内整合性によって定義される、新たに導入された堅牢性の概念の3つの次元にわたって監査する。
以上の結果から,提案手法は特に民族性において,強い基準線を上回り,その特性はより困難であることが示唆された。
論文 参考訳(メタデータ) (2025-10-23T12:22:02Z) - A case for data valuation transparency via DValCards [0.5919433278490629]
データアセスメントのメトリクスは、単純なアルゴリズム設計の選択の下で本質的にバイアスを受け、不安定であることを示す。
我々は,データバリュエーションに関する透明性の向上を支持するとともに,新しいデータバリュエーションカード(DValCards)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-06-29T17:53:00Z) - Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [24.00172524434103]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。
提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。
この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-22T02:46:03Z) - ALinFiK: Learning to Approximate Linearized Future Influence Kernel for Scalable Third-Party LLM Data Valuation [11.36712576361739]
大規模言語モデル(LLM)は、高品質なトレーニングデータに大きく依存しているため、モデルパフォーマンスの最適化にデータバリュエーションが不可欠である。
個々のデータサンプルの値を評価する線形化後の影響カーネル(LinFiK)を導入する。
我々は、LinFiKを近似する学習戦略であるALinFiKを提案し、スケーラブルなデータバリュエーションを実現する。
論文 参考訳(メタデータ) (2025-03-02T22:51:12Z) - Targeted Learning for Data Fairness [52.59573714151884]
データ生成プロセス自体の公平性を評価することにより、公平性推論を拡張する。
我々は、人口統計学的平等、平等機会、条件付き相互情報から推定する。
提案手法を検証するため,いくつかのシミュレーションを行い,実データに適用する。
論文 参考訳(メタデータ) (2025-02-06T18:51:28Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Fairness-Aware Data Valuation for Supervised Learning [4.874780144224057]
本研究では,Fairness-Aware Data vauatiOn (FADO)を提案する。
FADOを不公平化前処理技術の基礎として活用する方法を示す。
提案手法は,最大40ppの公正度を,ベースラインに比べて性能が1pp以下で向上することを示す。
論文 参考訳(メタデータ) (2023-03-29T18:51:13Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。