論文の概要: Incentivizing Collaboration in Machine Learning via Synthetic Data
Rewards
- arxiv url: http://arxiv.org/abs/2112.09327v1
- Date: Fri, 17 Dec 2021 05:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 01:55:03.056885
- Title: Incentivizing Collaboration in Machine Learning via Synthetic Data
Rewards
- Title(参考訳): 合成データリワードによる機械学習におけるコラボレーションのインセンティブ
- Authors: Sebastian Shenghong Tay and Xinyi Xu and Chuan Sheng Foo and Bryan
Kian Hsiang Low
- Abstract要約: 本稿では、データ提供に利害関係者間の協調を動機付ける新しい協調生成モデリング(CGM)フレームワークを提案する。
合成データを報酬として分配することは、下流の学習タスクにタスクとモデルに依存しない利点を提供する。
- 参考スコア(独自算出の注目度): 26.850070556844628
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a novel collaborative generative modeling (CGM) framework
that incentivizes collaboration among self-interested parties to contribute
data to a pool for training a generative model (e.g., GAN), from which
synthetic data are drawn and distributed to the parties as rewards commensurate
to their contributions. Distributing synthetic data as rewards (instead of
trained models or money) offers task- and model-agnostic benefits for
downstream learning tasks and is less likely to violate data privacy
regulation. To realize the framework, we firstly propose a data valuation
function using maximum mean discrepancy (MMD) that values data based on its
quantity and quality in terms of its closeness to the true data distribution
and provide theoretical results guiding the kernel choice in our MMD-based data
valuation function. Then, we formulate the reward scheme as a linear
optimization problem that when solved, guarantees certain incentives such as
fairness in the CGM framework. We devise a weighted sampling algorithm for
generating synthetic data to be distributed to each party as reward such that
the value of its data and the synthetic data combined matches its assigned
reward value by the reward scheme. We empirically show using simulated and
real-world datasets that the parties' synthetic data rewards are commensurate
to their contributions.
- Abstract(参考訳): 本稿では, 自己関心のある参加者間の協調を動機付け, 生成モデル(GANなど)を訓練するためのプールへのデータ提供を促す, 新たな協調生成モデリング(CGM)フレームワークを提案する。
合成データを(訓練されたモデルやお金の代わりに)報酬として分配することは、下流の学習タスクにタスクやモデルに依存しない利点をもたらし、データのプライバシー規制に違反する可能性が低い。
このフレームワークを実現するために、まず、その量と品質に基づいてデータを評価する最大平均誤差(MMD)を用いたデータアセスメント関数を提案し、MDDベースのデータアセスメント関数におけるカーネル選択を導く理論的結果を提供する。
次に, cgmフレームワークにおける公平性など, ある種のインセンティブを保証する線形最適化問題として, 報酬スキームを定式化する。
我々は、各当事者に分配される合成データを生成するための重み付けサンプリングアルゴリズムを考案し、そのデータと合成データの値が、その報酬スキームによって割り当てられた報酬値と一致するようにした。
シミュレーションおよび実世界のデータセットを用いて、当事者の合成データ報酬がその貢献に相応しいことを実証的に示す。
関連論文リスト
- Mechanisms for Data Sharing in Collaborative Causal Inference (Extended Version) [2.709511652792003]
本稿では,共通学習課題に対する各当事者のデータ貢献度を評価するための評価手法を提案する。
データの品質に応じてエージェントを公平に報酬するために、あるいはすべてのエージェントのデータコントリビューションを最大化するために利用することができる。
論文 参考訳(メタデータ) (2024-07-04T14:32:32Z) - IMFL-AIGC: Incentive Mechanism Design for Federated Learning Empowered by Artificial Intelligence Generated Content [15.620004060097155]
フェデレートラーニング(FL)は、クライアントがローカルデータをアップロードすることなく、共有グローバルモデルを協調的にトレーニングできる、有望なパラダイムとして登場した。
顧客参加を促すため,データ品質を考慮したインセンティブ機構を提案する。
提案したメカニズムは,トレーニングの精度が高く,実世界のデータセットによるサーバコストの最大53.34%を削減できる。
論文 参考訳(メタデータ) (2024-06-12T07:47:22Z) - Incentives in Private Collaborative Machine Learning [56.84263918489519]
コラボレーション型機械学習は、複数のパーティのデータに基づいてモデルをトレーニングする。
インセンティブとして差分プライバシー(DP)を導入する。
合成および実世界のデータセットに対するアプローチの有効性と実用性を実証的に実証した。
論文 参考訳(メタデータ) (2024-04-02T06:28:22Z) - Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Reward-Directed Conditional Diffusion: Provable Distribution Estimation
and Reward Improvement [42.45888600367566]
Directed Generationは、報酬関数によって測定された望ましい特性を持つサンプルを生成することを目的としている。
我々は、データセットがラベルのないデータと、ノイズの多い報酬ラベルを持つ小さなデータセットから構成される一般的な学習シナリオを考察する。
論文 参考訳(メタデータ) (2023-07-13T20:20:40Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Mechanisms that Incentivize Data Sharing in Federated Learning [90.74337749137432]
我々は、データ共有の利点が完全に損なわれているような、ナイーブなスキームが破滅的なフリーライディングのレベルにどのように結びつくかを示す。
次に,各エージェントが生成するデータ量を最大化する精度形成機構を導入する。
論文 参考訳(メタデータ) (2022-07-10T22:36:52Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Collaborative Machine Learning with Incentive-Aware Model Rewards [32.43927226170119]
コラボレーティブ機械学習(Collaborative Machine Learning, ML)は、多くのパーティから収集されたデータをトレーニングすることで、高品質なMLモデルを構築するための魅力的なパラダイムである。
これらの団体は、貢献に基づいて公正な報酬が保証されるなど、十分なインセンティブを与えられた場合にのみ、データを共有する意思を持っている。
本稿では,そのデータから得られるモデルの値と情報ゲインに基づいて,当事者の報酬を評価することを提案する。
論文 参考訳(メタデータ) (2020-10-24T06:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。