論文の概要: A Cramér-von Mises Approach to Incentivizing Truthful Data Sharing
- arxiv url: http://arxiv.org/abs/2506.07272v1
- Date: Sun, 08 Jun 2025 20:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.742594
- Title: A Cramér-von Mises Approach to Incentivizing Truthful Data Sharing
- Title(参考訳): Cramér-vonによる真理データ共有のインセンティブ化
- Authors: Alex Clinton, Thomas Zeng, Yiding Chen, Xiaojin Zhu, Kirthevasan Kandasamy,
- Abstract要約: 我々は,Cram'er-von Mises統計に触発された新しい2サンプルテストに基づいて報奨機構を開発する。
提案手法は,データ作成などの非現実的な報告を廃止しつつ,エージェントがより真にデータを送ることを強く動機づける。
- 参考スコア(独自算出の注目度): 10.731682970668142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern data marketplaces and data sharing consortia increasingly rely on incentive mechanisms to encourage agents to contribute data. However, schemes that reward agents based on the quantity of submitted data are vulnerable to manipulation, as agents may submit fabricated or low-quality data to inflate their rewards. Prior work has proposed comparing each agent's data against others' to promote honesty: when others contribute genuine data, the best way to minimize discrepancy is to do the same. Yet prior implementations of this idea rely on very strong assumptions about the data distribution (e.g. Gaussian), limiting their applicability. In this work, we develop reward mechanisms based on a novel, two-sample test inspired by the Cram\'er-von Mises statistic. Our methods strictly incentivize agents to submit more genuine data, while disincentivizing data fabrication and other types of untruthful reporting. We establish that truthful reporting constitutes a (possibly approximate) Nash equilibrium in both Bayesian and prior-agnostic settings. We theoretically instantiate our method in three canonical data sharing problems and show that it relaxes key assumptions made by prior work. Empirically, we demonstrate that our mechanism incentivizes truthful data sharing via simulations and on real-world language and image data.
- Abstract(参考訳): 現代のデータ市場とデータ共有コンソーシアムは、エージェントにデータ提供を促すインセンティブメカニズムに依存している。
しかしながら、提出されたデータ量に基づく報酬エージェントのスキームは操作に脆弱であり、エージェントはその報酬をインフレーションするために製造データや低品質データを提出することができる。
先行研究では、各エージェントのデータと他エージェントのデータを比較して、誠実さを促進することを提案した。
しかし、この考え方の以前の実装は、データ分散(例えばガウス)に関する非常に強い仮定に依存し、適用性を制限する。
本研究では,Cram\'er-von Mises統計にインスパイアされた,新しい2サンプルテストに基づく報奨機構を開発する。
提案手法は,データ作成などの非現実的な報告を廃止しつつ,エージェントがより真にデータを送ることを強く動機づける。
我々は、真理報告がベイズ的および事前認識的セッティングにおける(おそらく近似的な)ナッシュ均衡を構成することを確証する。
理論的には、3つの標準データ共有問題において本手法をインスタンス化し、先行作業による重要な仮定を緩和することを示す。
実験により,本機構はシミュレーションや実世界の言語や画像データによる真理データ共有の動機付けを実証する。
関連論文リスト
- Scaling laws for learning with real and surrogate data [12.617392961074096]
重み付き経験的リスク最小化(ERM)アプローチを用いて,サロゲートデータをトレーニングに統合する。
$(i)$ サロゲートデータを統合すれば、元のディストリビューションにおけるテストエラーを大幅に削減できる。
$(ii)$ 代理データの利点を享受するためには、最適な重み付けのERMを使用することが重要です。
論文 参考訳(メタデータ) (2024-02-06T20:30:19Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - On Comparing Fair Classifiers under Data Bias [42.43344286660331]
本研究では,データ偏差の変化が公正分類器の精度と公平性に及ぼす影響について検討する。
我々の実験は、既存のフェアネスダッシュボードにデータバイアスリスクの尺度を統合する方法を示している。
論文 参考訳(メタデータ) (2023-02-12T13:04:46Z) - Mechanisms that Incentivize Data Sharing in Federated Learning [90.74337749137432]
我々は、データ共有の利点が完全に損なわれているような、ナイーブなスキームが破滅的なフリーライディングのレベルにどのように結びつくかを示す。
次に,各エージェントが生成するデータ量を最大化する精度形成機構を導入する。
論文 参考訳(メタデータ) (2022-07-10T22:36:52Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Incentivizing Collaboration in Machine Learning via Synthetic Data
Rewards [26.850070556844628]
本稿では、データ提供に利害関係者間の協調を動機付ける新しい協調生成モデリング(CGM)フレームワークを提案する。
合成データを報酬として分配することは、下流の学習タスクにタスクとモデルに依存しない利点を提供する。
論文 参考訳(メタデータ) (2021-12-17T05:15:30Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Fair Densities via Boosting the Sufficient Statistics of Exponential
Families [72.34223801798422]
フェアネスのためのデータ前処理にブースティングアルゴリズムを導入する。
私たちのアプローチは、最小限の公平性を確保しながら、より良いデータフィッティングへとシフトします。
実世界のデータに結果の質を示す実験結果が提示される。
論文 参考訳(メタデータ) (2020-12-01T00:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。