論文の概要: Learning the Expected Core of Strictly Convex Stochastic Cooperative
Games
- arxiv url: http://arxiv.org/abs/2402.07067v1
- Date: Sat, 10 Feb 2024 23:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:43:17.517857
- Title: Learning the Expected Core of Strictly Convex Stochastic Cooperative
Games
- Title(参考訳): 厳密な凸確率協調ゲームにおける期待コアの学習
- Authors: Nam Phuong Tran, The Anh Ta, Shuqing Shi, Debmalya Mandal, Yali Du,
Long Tran-Thanh
- Abstract要約: 信用割当問題としても知られるリワード割当は、経済学、工学、機械学習において重要なトピックである。
本稿では,報酬関数を未知の分布を持つランダム変数として特徴付ける協調ゲームにおける安定なアロケーション学習問題を考察する。
- 参考スコア(独自算出の注目度): 18.746089166690144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward allocation, also known as the credit assignment problem, has been an
important topic in economics, engineering, and machine learning. An important
concept in credit assignment is the core, which is the set of stable
allocations where no agent has the motivation to deviate from the grand
coalition. In this paper, we consider the stable allocation learning problem of
stochastic cooperative games, where the reward function is characterised as a
random variable with an unknown distribution. Given an oracle that returns a
stochastic reward for an enquired coalition each round, our goal is to learn
the expected core, that is, the set of allocations that are stable in
expectation. Within the class of strictly convex games, we present an algorithm
named \texttt{Common-Points-Picking} that returns a stable allocation given a
polynomial number of samples, with high probability. The analysis of our
algorithm involves the development of several new results in convex geometry,
including an extension of the separation hyperplane theorem for multiple convex
sets, and may be of independent interest.
- Abstract(参考訳): 報酬の割り当ては、クレジット割り当て問題としても知られ、経済学、工学、機械学習において重要なトピックとなっている。
信用割当における重要な概念は中核であり、大連立から逸脱する動機を持つエージェントがいない安定した割当の集合である。
本稿では,確率的協調ゲームにおいて,報酬関数を未知の分布を持つランダム変数として特徴付ける安定なアロケーション学習問題を考察する。
要求された連立に対する確率的な報酬を各ラウンド毎に返すオラクルを考えると、私たちの目標は期待されたコア、すなわち期待どおりの割り当てのセットを学ぶことです。
厳密な凸ゲームのクラス内では、高確率で多項式数の標本が与えられたときの安定なアロケーションを返す「texttt{Common-Points-Picking}」というアルゴリズムを提案する。
このアルゴリズムの解析は、複数の凸集合に対する分離超平面定理の拡張を含む凸幾何学におけるいくつかの新しい結果の開発を伴い、独立した興味を持つかもしれない。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Shapley Value Based Multi-Agent Reinforcement Learning: Theory, Method
and Its Application to Energy Network [7.50196317304035]
本論は,協調ゲーム理論によるマルチエージェント強化学習における信用割当の基礎を考察する。
まず,コラボレーティブゲーム理論において,コンベックスゲーム(convex game)と呼ばれるゲームモデルと,Shapley値と呼ばれるペイオフ分配スキームを拡張した。
Markov Shapley値に基づいて,SHAQ,SQDDPG,SPOという3つのマルチエージェント強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T13:43:15Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - Learning Stationary Nash Equilibrium Policies in $n$-Player Stochastic
Games with Independent Chains [2.132096006921048]
我々は、プレイヤーがペイオフ機能を介して結合されている間、内部の状態/行動空間を持つ、$n$プレイヤゲームのクラスを考える。
このクラスのゲームに対して、報奨関数を仮定せずに定常ナッシュ(NE)ポリシーを見つけることは、対話可能であることを示す。
我々は,2重平均化と2重ミラー降下に基づくアルゴリズムを開発し,これを$epsilon$-NEポリシーの集合に収束させる。
論文 参考訳(メタデータ) (2022-01-28T16:27:21Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。