論文の概要: A Ratio-Based Shapley Value for Collaborative Machine Learning - Extended Version
- arxiv url: http://arxiv.org/abs/2510.13261v1
- Date: Wed, 15 Oct 2025 08:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.562779
- Title: A Ratio-Based Shapley Value for Collaborative Machine Learning - Extended Version
- Title(参考訳): 協調型機械学習のための比率に基づく共有値 - 拡張バージョン
- Authors: Björn Filter, Ralf Möller, Özgür Lütfü Özçep,
- Abstract要約: 協調機械学習は、複数のデータ所有者が予測性能を改善するためにモデルを共同で訓練することを可能にする。
インセンティブの互換性と公正な貢献に基づく報酬を保証することは、依然として重要な課題である。
標準加法的定式化を相対的寄与尺度に置き換える比に基づくシェープリー値を導入する。
- 参考スコア(独自算出の注目度): 1.7778609937758325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative machine learning enables multiple data owners to jointly train models for improved predictive performance. However, ensuring incentive compatibility and fair contribution-based rewards remains a critical challenge. Prior work by Sim and colleagues (Rachel Hwee Ling Sim et al: Collaborative machine learning with incentive-aware model rewards. In: International conference on machine learning. PMLR. 2020, pp. 8927-8963) addressed this by allocating model rewards, which are non-monetary and freely replicable, based on the Shapley value of each party's data contribution, measured via information gain. In this paper, we introduce a ratio-based Shapley value that replaces the standard additive formulation with a relative contribution measure. While our overall reward framework, including the incentive definitions and model-reward setting, remains aligned with that of Sim and colleagues, the underlying value function is fundamentally different. Our alternative valuation induces a different distribution of model rewards and offers a new lens through which to analyze incentive properties. We formally define the ratio-based value and prove that it satisfies the same set of incentive conditions as the additive formulation, including adapted versions of fairness, individual rationality, and stability. Like the original approach, our method faces the same fundamental trade-offs between these incentives. Our contribution is a mathematically grounded alternative to the additive Shapley framework, potentially better suited to contexts where proportionality among contributors is more meaningful than additive differences.
- Abstract(参考訳): 協調機械学習は、複数のデータ所有者が予測性能を改善するためにモデルを共同で訓練することを可能にする。
しかしながら、インセンティブの互換性と公正な貢献に基づく報酬を保証することは、依然として重要な課題である。
Sim氏と同僚(Rachel Hwee Ling Sim et al: Collaborative machine learning with incentive-aware model rewards. In: International conference on machine learning. PMLR. 2020, pp. 8927-8963)は、各パーティのデータコントリビューションのShapley値に基づいて、非収益的で自由に複製可能なモデル報酬を割り当てることでこの問題に対処した。
本稿では, 標準加法的定式化を相対的寄与尺度に置き換える, 比に基づくシェープリー値を提案する。
インセンティブの定義やモデル・リワード・セッティングを含む私たちの全体的な報酬フレームワークは、Sim氏と同僚のものとは相容れないが、根底にある価値関数は根本的に異なる。
我々の代替評価は、モデル報酬の異なる分布を誘導し、インセンティブ特性を分析するための新しいレンズを提供する。
我々は、正式に比に基づく値を定義し、それが付加的定式化と同じインセンティブ条件の集合を満たすことを証明し、フェアネス、個人的合理性、安定性の適応バージョンを含む。
元々のアプローチと同様に、我々の手法もこれらのインセンティブの間に同じ基本的なトレードオフに直面している。
私たちのコントリビューションは、加法的なShapleyフレームワークに代えて数学的に基礎を置き、コントリビュータ間の比例が加法的な違いよりも有意義な文脈に適している可能性がある。
関連論文リスト
- Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - On the Volatility of Shapley-Based Contribution Metrics in Federated Learning [1.827018440608344]
フェデレートラーニング(Federated Learning, FL)は、協調型およびプライバシ保護型機械学習パラダイムである。
不正確なコントリビューションの割り当ては、信頼を損なう可能性があり、不公平な報酬につながるため、参加者は連合への参加や積極的に貢献するインセンティブを欠く可能性がある。
集約戦略の集合において,Shapley値の相違点を広範囲に分析し,全体的および各クライアントレベルで検証する。
論文 参考訳(メタデータ) (2024-05-13T13:55:34Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Collaborative Machine Learning with Incentive-Aware Model Rewards [32.43927226170119]
コラボレーティブ機械学習(Collaborative Machine Learning, ML)は、多くのパーティから収集されたデータをトレーニングすることで、高品質なMLモデルを構築するための魅力的なパラダイムである。
これらの団体は、貢献に基づいて公正な報酬が保証されるなど、十分なインセンティブを与えられた場合にのみ、データを共有する意思を持っている。
本稿では,そのデータから得られるモデルの値と情報ゲインに基づいて,当事者の報酬を評価することを提案する。
論文 参考訳(メタデータ) (2020-10-24T06:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。