論文の概要: Designing DSIC Mechanisms for Data Sharing in the Era of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.05379v1
- Date: Sun, 01 Jun 2025 22:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 21:34:56.734135
- Title: Designing DSIC Mechanisms for Data Sharing in the Era of Large Language Models
- Title(参考訳): 大規模言語モデルにおけるデータ共有のためのDSIC機構の設計
- Authors: Seyed Moein Ayyoubzadeh, Kourosh Shahnazari, Mohammmadali Keshtparvar, MohammadAmin Fazli,
- Abstract要約: 大規模言語モデル(LLM)のトレーニングには、法的、プライバシー、戦略的制約に直面している機関からの大量の高品質なデータが必要である。
本稿では,信頼度を最小化したデータ共有のためのメカニズム設計フレームワークを提案する。
我々は、プロバイダがデータコストと品質をプライベートに知るモデルを定式化し、その価値は、モデルの性能に対するデータの貢献からのみ生じます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models (LLMs) requires vast amounts of high-quality data from institutions that face legal, privacy, and strategic constraints. Existing data procurement methods often rely on unverifiable trust or ignore heterogeneous provider costs. We introduce a mechanism-design framework for truthful, trust-minimized data sharing that ensures dominant-strategy incentive compatibility (DSIC), individual rationality, and weak budget balance, while rewarding data based on both quality and learning utility. We formalize a model where providers privately know their data cost and quality, and value arises solely from the data's contribution to model performance. Based on this, we propose the Quality-Weighted Marginal-Incentive Auction (Q-MIA), which ranks providers using a virtual cost metric and uses Myerson-style payments to ensure DSIC and budget feasibility. To support settings with limited liquidity or long-term incentives, we introduce the Marginal Utility Token (MUT), which allocates future rights based on marginal contributions. We unify these in Mixed-MIA, a hybrid mechanism balancing upfront payments and deferred rewards. All mechanisms support verifiable, privacy-preserving implementation. Theoretically and empirically, they outperform volume-based and trust-based baselines, eliciting higher-quality data under budget constraints while remaining robust to misreporting and collusion. This establishes a principled foundation for sustainable and fair data markets for future LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングには、法的、プライバシー、戦略的制約に直面している機関からの大量の高品質なデータが必要である。
既存のデータ調達手法は、検証不可能な信頼に依存したり、異種プロバイダのコストを無視したりすることが多い。
本研究では,信頼度と信頼度を最小化したデータ共有のためのメカニズム設計フレームワークを導入し,質と学習性の両方に基づいてデータに報酬を与えるとともに,支配的戦略インセンティブの適合性(DSIC),個人的合理性,予算バランスの弱さを保証する。
我々は、プロバイダがデータコストと品質をプライベートに知るモデルを定式化し、その価値は、モデルの性能に対するデータの貢献からのみ生じます。
そこで我々は,Q-MIA(Quality-Weighted Marginal-Incentive Auction)を提案する。
流動性や長期的インセンティブに制限のある設定を支援するため,限界的貢献に基づいて将来の権利を配分するMarginal Utility Token(MUT)を導入する。
それらをMixed-MIA(Mixed-MIA)に統合する。
すべてのメカニズムは検証可能なプライバシ保護の実装をサポートする。
理論的にも経験的にも、彼らはボリュームベースと信頼ベースのベースラインを上回り、予算制約の下で高品質なデータを引き出す一方で、誤った報告や共謀に対して堅牢なままである。
これにより、将来のLCMのための持続的で公正なデータ市場のための原則的な基盤が確立される。
関連論文リスト
- Incentivizing Inclusive Contributions in Model Sharing Markets [47.66231950174746]
本稿では,包括的でインセンティブの高い個人化フェデレーション学習(iPFL)を提案する。
iPFLは、データを公開せずにパーソナライズされたモデルを協調的にトレーニングするために、さまざまな目的でデータホルダーにインセンティブを与える。
11のAIタスクに関する実証研究は、iPFLが常に最高の経済効果を達成していることを示している。
論文 参考訳(メタデータ) (2025-05-05T08:45:26Z) - Empirical Analysis of Privacy-Fairness-Accuracy Trade-offs in Federated Learning: A Step Towards Responsible AI [6.671649946926508]
フェデレートラーニング(FL)は、データのプライバシを維持しながら機械学習を可能にするが、プライバシ保護(PP)と公正性のバランスをとるのに苦労する。
DPはプライバシーを向上するが、計算オーバーヘッドを犠牲にしてHEとSMCの公平性を懸念する一方で、不足しているグループに不均等に影響を及ぼす可能性がある。
我々の発見は、文脈に依存したトレードオフを強調し、責任あるAI原則を守り、公正性、プライバシー、公平な現実世界のアプリケーションを保証するFLシステムを設計するためのガイドラインを提供する。
論文 参考訳(メタデータ) (2025-03-20T15:31:01Z) - MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
我々は、フェデレーション学習(FL)によるプライバシーを確保しつつ、サービスのデータ提供を容易にする没入型モデルトレーディングフレームワークを提案する。
我々は,資源制約下での高価値モデルに貢献するために,メタバースユーザ(MU)にインセンティブを与えるインセンティブ機構を設計する。
我々は、MUやその他のMSPに関するプライベート情報にアクセスすることなく、深層強化学習に基づく完全に分散された動的報酬アルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - IMFL-AIGC: Incentive Mechanism Design for Federated Learning Empowered by Artificial Intelligence Generated Content [15.620004060097155]
フェデレートラーニング(FL)は、クライアントがローカルデータをアップロードすることなく、共有グローバルモデルを協調的にトレーニングできる、有望なパラダイムとして登場した。
顧客参加を促すため,データ品質を考慮したインセンティブ機構を提案する。
提案したメカニズムは,トレーニングの精度が高く,実世界のデータセットによるサーバコストの最大53.34%を削減できる。
論文 参考訳(メタデータ) (2024-06-12T07:47:22Z) - Optimal Pricing for Data-Augmented AutoML Marketplaces [34.293214013879464]
既存のクラウドベースのAutoMLプラットフォームとシームレスに統合可能な,実用的なデータ拡張型AutoML市場を提案する。
通常のAutoMLソリューションとは異なり、当社の設計は、購入者が提出したトレーニングデータを貴重な外部データセットで自動的に強化します。
私たちの重要なイノベーションは、機器価値、すなわち限界モデルの品質改善に基づく価格設定メカニズムです。
論文 参考訳(メタデータ) (2023-10-27T01:49:13Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Spending Privacy Budget Fairly and Wisely [7.975975942400017]
差分プライベート(DP)合成データ生成は、データへのアクセスを改善するための実用的な方法である。
DP固有の問題のひとつは、"プライバシ予算"が一般的に、データセットの機能間で均等に"発効"していることだ。
我々は,DPデータに基づいてトレーニングされたモデルの予測精度を最大化するために,プライバシー予算を「賢明に」配布するアンサンブル手法を開発した。
論文 参考訳(メタデータ) (2022-04-27T13:13:56Z) - Data Sharing Markets [95.13209326119153]
我々は、各エージェントがデータの買い手および売り手の両方になり得る設定について検討する。
両データ交換(データ付きトレーディングデータ)と一方データ交換(お金付きトレーディングデータ)の2つの事例を考察する。
論文 参考訳(メタデータ) (2021-07-19T06:00:34Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。