論文の概要: Collaborative Machine Learning with Incentive-Aware Model Rewards
- arxiv url: http://arxiv.org/abs/2010.12797v1
- Date: Sat, 24 Oct 2020 06:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:37:09.266428
- Title: Collaborative Machine Learning with Incentive-Aware Model Rewards
- Title(参考訳): インセンティブ・アウェアモデル報酬を用いた協調機械学習
- Authors: Rachael Hwee Ling Sim, Yehong Zhang, Mun Choon Chan, Bryan Kian Hsiang
Low
- Abstract要約: コラボレーティブ機械学習(Collaborative Machine Learning, ML)は、多くのパーティから収集されたデータをトレーニングすることで、高品質なMLモデルを構築するための魅力的なパラダイムである。
これらの団体は、貢献に基づいて公正な報酬が保証されるなど、十分なインセンティブを与えられた場合にのみ、データを共有する意思を持っている。
本稿では,そのデータから得られるモデルの値と情報ゲインに基づいて,当事者の報酬を評価することを提案する。
- 参考スコア(独自算出の注目度): 32.43927226170119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative machine learning (ML) is an appealing paradigm to build
high-quality ML models by training on the aggregated data from many parties.
However, these parties are only willing to share their data when given enough
incentives, such as a guaranteed fair reward based on their contributions. This
motivates the need for measuring a party's contribution and designing an
incentive-aware reward scheme accordingly. This paper proposes to value a
party's reward based on Shapley value and information gain on model parameters
given its data. Subsequently, we give each party a model as a reward. To
formally incentivize the collaboration, we define some desirable properties
(e.g., fairness and stability) which are inspired by cooperative game theory
but adapted for our model reward that is uniquely freely replicable. Then, we
propose a novel model reward scheme to satisfy fairness and trade off between
the desirable properties via an adjustable parameter. The value of each party's
model reward determined by our scheme is attained by injecting Gaussian noise
to the aggregated training data with an optimized noise variance. We
empirically demonstrate interesting properties of our scheme and evaluate its
performance using synthetic and real-world datasets.
- Abstract(参考訳): コラボレーティブ機械学習(Collaborative Machine Learning, ML)は、多くのパーティから収集されたデータに基づいて、高品質なMLモデルを構築するための魅力的なパラダイムである。
しかしながら、これらのパーティは、貢献に基づいて公正な報酬が保証されるなど、十分なインセンティブが与えられた場合にのみ、データを共有する意思があります。
これにより、当事者の貢献度を測定し、それに応じてインセンティブを意識した報酬体系を設計する必要が生じる。
本稿では,shapley の値とモデルパラメータによる情報ゲインに基づいて,相手の報酬を評価することを提案する。
その後、各パーティーに報酬としてモデルを与えます。
協調を形式的にインセンティブづけるために,協調ゲーム理論に着想を得たが,独自に自由に複製可能なモデル報酬に適応した,望ましい性質(フェアネスや安定性など)を定義した。
そこで本研究では,公平性を満たし,調整可能なパラメータを介して望ましい特性間のトレードオフを実現する新しいモデル報酬スキームを提案する。
提案手法により決定された各パーティーのモデル報酬の値は、最適化されたノイズ分散で集約されたトレーニングデータにガウスノイズを注入することで得られる。
本手法の興味深い特性を実証し,その性能を合成および実世界データセットを用いて評価する。
関連論文リスト
- Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives [14.401557416713315]
報奨モデルにおけるBradley-Terryモデル(BT)モデルの使用の基礎を再考する。
我々は,下流最適化の観点から,BTモデルが必須選択ではないことを論じる。
既成のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:57:03Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - Incentives in Private Collaborative Machine Learning [56.84263918489519]
コラボレーション型機械学習は、複数のパーティのデータに基づいてモデルをトレーニングする。
インセンティブとして差分プライバシー(DP)を導入する。
合成および実世界のデータセットに対するアプローチの有効性と実用性を実証的に実証した。
論文 参考訳(メタデータ) (2024-04-02T06:28:22Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z) - Incentivizing Collaboration in Machine Learning via Synthetic Data
Rewards [26.850070556844628]
本稿では、データ提供に利害関係者間の協調を動機付ける新しい協調生成モデリング(CGM)フレームワークを提案する。
合成データを報酬として分配することは、下流の学習タスクにタスクとモデルに依存しない利点を提供する。
論文 参考訳(メタデータ) (2021-12-17T05:15:30Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。