論文の概要: Learning Density-Based Correlated Equilibria for Markov Games
- arxiv url: http://arxiv.org/abs/2302.08001v1
- Date: Thu, 16 Feb 2023 00:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 15:29:22.035304
- Title: Learning Density-Based Correlated Equilibria for Markov Games
- Title(参考訳): マルコフゲームのための密度に基づく相関平衡学習
- Authors: Libo Zhang, Yang Chen, Toru Takisaka, Bakh Khoussainov, Michael
Witbrock, and Jiamou Liu
- Abstract要約: 相関平衡 (Correlated Equilibrium, CE) は、エージェント間の協調を捉えるよく確立された解概念である。
本稿では, 状態密度を選択基準として明確に捉えたCEの新たな概念である密度ベース相関平衡(DBCE)を提案する。
- 参考スコア(独自算出の注目度): 14.004941066684134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correlated Equilibrium (CE) is a well-established solution concept that
captures coordination among agents and enjoys good algorithmic properties. In
real-world multi-agent systems, in addition to being in an equilibrium, agents'
policies are often expected to meet requirements with respect to safety, and
fairness. Such additional requirements can often be expressed in terms of the
state density which measures the state-visitation frequencies during the course
of a game. However, existing CE notions or CE-finding approaches cannot
explicitly specify a CE with particular properties concerning state density;
they do so implicitly by either modifying reward functions or using value
functions as the selection criteria. The resulting CE may thus not fully fulfil
the state-density requirements. In this paper, we propose Density-Based
Correlated Equilibria (DBCE), a new notion of CE that explicitly takes state
density as selection criterion. Concretely, we instantiate DBCE by specifying
different state-density requirements motivated by real-world applications. To
compute DBCE, we put forward the Density Based Correlated Policy Iteration
algorithm for the underlying control problem. We perform experiments on various
games where results demonstrate the advantage of our CE-finding approach over
existing methods in scenarios with state-density concerns.
- Abstract(参考訳): Correlated Equilibrium (CE) は、エージェント間の協調を捉え、優れたアルゴリズム特性を享受する、確立されたソリューション概念である。
現実のマルチエージェントシステムでは、平衡性に加えて、エージェントのポリシーは安全と公正性に関する要件を満たすことがしばしば期待される。
このような追加要件は、しばしば、ゲーム中の状態参照頻度を測定する状態密度の観点から表現される。
しかし、既存のCE概念やCE-findingアプローチでは、状態密度に関する特定の特性を持つCEを明示的に指定することはできない。
したがって、CEは状態密度要件を完全に満たさない。
本稿では,状態密度を選択基準として明確に捉えるCEの新しい概念である密度ベース相関平衡(DBCE)を提案する。
具体的には、実世界のアプリケーションによって動機付けられた異なる状態密度要求を指定することでDBCEをインスタンス化する。
DBCEを計算するために,基礎となる制御問題に対する密度ベース関連ポリシー反復アルゴリズムを提案する。
状態密度の懸念のあるシナリオにおける既存手法に対するCE-findingアプローチの利点を実演する各種ゲームで実験を行った。
関連論文リスト
- Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - Provably Robust and Plausible Counterfactual Explanations for Neural
Networks via Robust Optimisation [20.45477823669999]
PROPLACE(Provably RObust and PLAUSible Counterfactual Explanations)を提案する。
証明可能な堅牢なCEを計算し、その収束性、健全性、完全性を証明するための反復アルゴリズムを定式化する。
ProPLACEは,3つの評価点において,計測値に対する最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-22T00:12:09Z) - Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with
Differentiable Expected Calibration Error [50.86671887712424]
ドメイン適応型セマンティックセグメンテーションの流行は、ソースドメインデータの漏洩に関する懸念を引き起こしている。
ソースデータの要求を回避するため、ソースフリーなドメイン適応が実現可能なソリューションとして登場した。
校正誘導型ソースフリーなドメイン適応型セマンティックセマンティックセマンティクスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:28:34Z) - Calibrated Explanations: with Uncertainty Information and
Counterfactuals [0.1843404256219181]
Calibrated Explanations (CE)はVenn-Abersの基礎の上に構築されている。
これは特徴量とモデルの確率推定の両方に対して不確実な定量化を提供する。
25のベンチマークデータセットによる評価の結果は,CEの有効性を裏付けるものだった。
論文 参考訳(メタデータ) (2023-05-03T17:52:41Z) - Rethinking Counterfactual Explanations as Local and Regional
Counterfactual Policies [0.0]
本稿では,各観測の局所的反実律を緩やかに規定する確率的枠組みを提案する。
これらの規則は、様々な反事実的説明の要約として機能し、堅牢な論説をもたらす。
当社のメソッドはPythonパッケージとして利用可能です。
論文 参考訳(メタデータ) (2022-09-29T06:08:54Z) - On the Robustness of Counterfactual Explanations to Adverse
Perturbations [0.0]
我々は、不運な状況によって自然に起こりうる、有害な摂動に対する堅牢性について検討する。
私たちは堅牢性の定義を2つ提供します。
我々の実験では、CEは多くの場合、堅牢ではないことが示され、もし悪質な摂動が起これば、彼らが要求する介入は予想よりもはるかにコストがかかる可能性がある。
論文 参考訳(メタデータ) (2022-01-22T13:57:45Z) - Density Constrained Reinforcement Learning [9.23225507471139]
状態密度関数に制約を直接設定することで,新しい視点から制約付き強化学習を研究する。
我々は密度関数とQ関数の双対性を利用して、密度制約されたRL問題を最適に解く効果的なアルゴリズムを開発する。
提案アルゴリズムは, ポリシー更新が不完全である場合でも, 境界誤差のある準最適解に収束することを示す。
論文 参考訳(メタデータ) (2021-06-24T04:22:03Z) - Online Learning of Competitive Equilibria in Exchange Economies [94.24357018178867]
経済学では、複数の有理エージェント間の資源不足の共有は古典的な問題である。
エージェントの好みを学習するためのオンライン学習機構を提案する。
数値シミュレーションにより,本機構の有効性を実証する。
論文 参考訳(メタデータ) (2021-06-11T21:32:17Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - C-Learning: Learning to Achieve Goals via Recursive Classification [163.7610618571879]
自律エージェントの将来の状態分布を予測・制御する問題について検討する。
我々の研究は、密度推定としてゴール条件付きRLの基礎を定めている。
論文 参考訳(メタデータ) (2020-11-17T19:58:56Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。