論文の概要: Learning the Expected Core of Strictly Convex Stochastic Cooperative Games
- arxiv url: http://arxiv.org/abs/2402.07067v3
- Date: Wed, 30 Oct 2024 21:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:56:25.772694
- Title: Learning the Expected Core of Strictly Convex Stochastic Cooperative Games
- Title(参考訳): 難易度の高い確率的協調ゲームにおける期待コアの学習
- Authors: Nam Phuong Tran, The Anh Ta, Shuqing Shi, Debmalya Mandal, Yali Du, Long Tran-Thanh,
- Abstract要約: 報酬配分における重要な概念は、大連立から逸脱する動機を持つエージェントがいない安定した配分の集合である。
我々は,多くのサンプルが与えられた期待コアの点を返すtextttCommonPoints-Picking というアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 17.85094087244095
- License:
- Abstract: Reward allocation, also known as the credit assignment problem, has been an important topic in economics, engineering, and machine learning. An important concept in reward allocation is the core, which is the set of stable allocations where no agent has the motivation to deviate from the grand coalition. In previous works, computing the core requires either knowledge of the reward function in deterministic games or the reward distribution in stochastic games. However, this is unrealistic, as the reward function or distribution is often only partially known and may be subject to uncertainty. In this paper, we consider the core learning problem in stochastic cooperative games, where the reward distribution is unknown. Our goal is to learn the expected core, that is, the set of allocations that are stable in expectation, given an oracle that returns a stochastic reward for an enquired coalition each round. Within the class of strictly convex games, we present an algorithm named \texttt{Common-Points-Picking} that returns a point in the expected core given a polynomial number of samples, with high probability. To analyse the algorithm, we develop a new extension of the separation hyperplane theorem for multiple convex sets.
- Abstract(参考訳): 信用割当問題としても知られるリワード割当は、経済学、工学、機械学習において重要なトピックである。
報酬配分における重要な概念は、大連立から逸脱する動機を持つエージェントがいない安定した配分の集合である。
これまでの研究では、コアの計算には決定論的ゲームにおける報酬関数の知識や確率的ゲームにおける報酬分布の知識が必要である。
しかし、報酬関数や分布は部分的にしか知られておらず、不確実性にさらされることがあるため、これは非現実的である。
本稿では,報奨分布が不明な確率的協調ゲームにおける中核的学習問題について考察する。
私たちのゴールは、期待されるコア、すなわち、各ラウンドで結束された連立に確率的な報酬を返す託宣を与えられたときに安定したアロケーションのセットを学ぶことです。
厳密な凸ゲーム(英語版)のクラス内では、高い確率で多項式数の標本が与えられた期待コアの点を返す「texttt{Common-Points-Picking}」というアルゴリズムを提示する。
このアルゴリズムを解析するために、複数の凸集合に対する分離超平面定理の新たな拡張を開発する。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Shapley Value Based Multi-Agent Reinforcement Learning: Theory, Method
and Its Application to Energy Network [7.50196317304035]
本論は,協調ゲーム理論によるマルチエージェント強化学習における信用割当の基礎を考察する。
まず,コラボレーティブゲーム理論において,コンベックスゲーム(convex game)と呼ばれるゲームモデルと,Shapley値と呼ばれるペイオフ分配スキームを拡張した。
Markov Shapley値に基づいて,SHAQ,SQDDPG,SPOという3つのマルチエージェント強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T13:43:15Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - Learning Stationary Nash Equilibrium Policies in $n$-Player Stochastic
Games with Independent Chains [2.132096006921048]
我々は、プレイヤーがペイオフ機能を介して結合されている間、内部の状態/行動空間を持つ、$n$プレイヤゲームのクラスを考える。
このクラスのゲームに対して、報奨関数を仮定せずに定常ナッシュ(NE)ポリシーを見つけることは、対話可能であることを示す。
我々は,2重平均化と2重ミラー降下に基づくアルゴリズムを開発し,これを$epsilon$-NEポリシーの集合に収束させる。
論文 参考訳(メタデータ) (2022-01-28T16:27:21Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。