論文の概要: Collaborative Machine Learning with Incentive-Aware Model Rewards
- arxiv url: http://arxiv.org/abs/2010.12797v1
- Date: Sat, 24 Oct 2020 06:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:37:09.266428
- Title: Collaborative Machine Learning with Incentive-Aware Model Rewards
- Title(参考訳): インセンティブ・アウェアモデル報酬を用いた協調機械学習
- Authors: Rachael Hwee Ling Sim, Yehong Zhang, Mun Choon Chan, Bryan Kian Hsiang
Low
- Abstract要約: コラボレーティブ機械学習(Collaborative Machine Learning, ML)は、多くのパーティから収集されたデータをトレーニングすることで、高品質なMLモデルを構築するための魅力的なパラダイムである。
これらの団体は、貢献に基づいて公正な報酬が保証されるなど、十分なインセンティブを与えられた場合にのみ、データを共有する意思を持っている。
本稿では,そのデータから得られるモデルの値と情報ゲインに基づいて,当事者の報酬を評価することを提案する。
- 参考スコア(独自算出の注目度): 32.43927226170119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative machine learning (ML) is an appealing paradigm to build
high-quality ML models by training on the aggregated data from many parties.
However, these parties are only willing to share their data when given enough
incentives, such as a guaranteed fair reward based on their contributions. This
motivates the need for measuring a party's contribution and designing an
incentive-aware reward scheme accordingly. This paper proposes to value a
party's reward based on Shapley value and information gain on model parameters
given its data. Subsequently, we give each party a model as a reward. To
formally incentivize the collaboration, we define some desirable properties
(e.g., fairness and stability) which are inspired by cooperative game theory
but adapted for our model reward that is uniquely freely replicable. Then, we
propose a novel model reward scheme to satisfy fairness and trade off between
the desirable properties via an adjustable parameter. The value of each party's
model reward determined by our scheme is attained by injecting Gaussian noise
to the aggregated training data with an optimized noise variance. We
empirically demonstrate interesting properties of our scheme and evaluate its
performance using synthetic and real-world datasets.
- Abstract(参考訳): コラボレーティブ機械学習(Collaborative Machine Learning, ML)は、多くのパーティから収集されたデータに基づいて、高品質なMLモデルを構築するための魅力的なパラダイムである。
しかしながら、これらのパーティは、貢献に基づいて公正な報酬が保証されるなど、十分なインセンティブが与えられた場合にのみ、データを共有する意思があります。
これにより、当事者の貢献度を測定し、それに応じてインセンティブを意識した報酬体系を設計する必要が生じる。
本稿では,shapley の値とモデルパラメータによる情報ゲインに基づいて,相手の報酬を評価することを提案する。
その後、各パーティーに報酬としてモデルを与えます。
協調を形式的にインセンティブづけるために,協調ゲーム理論に着想を得たが,独自に自由に複製可能なモデル報酬に適応した,望ましい性質(フェアネスや安定性など)を定義した。
そこで本研究では,公平性を満たし,調整可能なパラメータを介して望ましい特性間のトレードオフを実現する新しいモデル報酬スキームを提案する。
提案手法により決定された各パーティーのモデル報酬の値は、最適化されたノイズ分散で集約されたトレーニングデータにガウスノイズを注入することで得られる。
本手法の興味深い特性を実証し,その性能を合成および実世界データセットを用いて評価する。
関連論文リスト
- A Bargaining-based Approach for Feature Trading in Vertical Federated
Learning [54.51890573369637]
本稿では,垂直的フェデレートラーニング(VFL)において,経済的に効率的な取引を促進するための交渉型特徴取引手法を提案する。
当社のモデルでは,収益ベース最適化の目的を考慮し,パフォーマンスゲインベースの価格設定を取り入れている。
論文 参考訳(メタデータ) (2024-02-23T10:21:07Z) - Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z) - Incentivizing Collaboration in Machine Learning via Synthetic Data
Rewards [26.850070556844628]
本稿では、データ提供に利害関係者間の協調を動機付ける新しい協調生成モデリング(CGM)フレームワークを提案する。
合成データを報酬として分配することは、下流の学習タスクにタスクとモデルに依存しない利点を提供する。
論文 参考訳(メタデータ) (2021-12-17T05:15:30Z) - Batch Reinforcement Learning from Crowds [24.717084423091865]
バッチ強化学習の欠点は、データに対する報酬の要求である。
行動クローンのような報酬の欠如に関する既存の設定は、人間から集めた最適なデモンストレーションに依存している。
本論文は、選好から報酬関数を学習することで、バッチ強化学習環境における報酬の欠如に対処する。
論文 参考訳(メタデータ) (2021-11-08T05:46:33Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。