論文の概要: Learning Density-Based Correlated Equilibria for Markov Games
- arxiv url: http://arxiv.org/abs/2302.08001v1
- Date: Thu, 16 Feb 2023 00:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 15:29:22.035304
- Title: Learning Density-Based Correlated Equilibria for Markov Games
- Title(参考訳): マルコフゲームのための密度に基づく相関平衡学習
- Authors: Libo Zhang, Yang Chen, Toru Takisaka, Bakh Khoussainov, Michael
Witbrock, and Jiamou Liu
- Abstract要約: 相関平衡 (Correlated Equilibrium, CE) は、エージェント間の協調を捉えるよく確立された解概念である。
本稿では, 状態密度を選択基準として明確に捉えたCEの新たな概念である密度ベース相関平衡(DBCE)を提案する。
- 参考スコア(独自算出の注目度): 14.004941066684134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correlated Equilibrium (CE) is a well-established solution concept that
captures coordination among agents and enjoys good algorithmic properties. In
real-world multi-agent systems, in addition to being in an equilibrium, agents'
policies are often expected to meet requirements with respect to safety, and
fairness. Such additional requirements can often be expressed in terms of the
state density which measures the state-visitation frequencies during the course
of a game. However, existing CE notions or CE-finding approaches cannot
explicitly specify a CE with particular properties concerning state density;
they do so implicitly by either modifying reward functions or using value
functions as the selection criteria. The resulting CE may thus not fully fulfil
the state-density requirements. In this paper, we propose Density-Based
Correlated Equilibria (DBCE), a new notion of CE that explicitly takes state
density as selection criterion. Concretely, we instantiate DBCE by specifying
different state-density requirements motivated by real-world applications. To
compute DBCE, we put forward the Density Based Correlated Policy Iteration
algorithm for the underlying control problem. We perform experiments on various
games where results demonstrate the advantage of our CE-finding approach over
existing methods in scenarios with state-density concerns.
- Abstract(参考訳): Correlated Equilibrium (CE) は、エージェント間の協調を捉え、優れたアルゴリズム特性を享受する、確立されたソリューション概念である。
現実のマルチエージェントシステムでは、平衡性に加えて、エージェントのポリシーは安全と公正性に関する要件を満たすことがしばしば期待される。
このような追加要件は、しばしば、ゲーム中の状態参照頻度を測定する状態密度の観点から表現される。
しかし、既存のCE概念やCE-findingアプローチでは、状態密度に関する特定の特性を持つCEを明示的に指定することはできない。
したがって、CEは状態密度要件を完全に満たさない。
本稿では,状態密度を選択基準として明確に捉えるCEの新しい概念である密度ベース相関平衡(DBCE)を提案する。
具体的には、実世界のアプリケーションによって動機付けられた異なる状態密度要求を指定することでDBCEをインスタンス化する。
DBCEを計算するために,基礎となる制御問題に対する密度ベース関連ポリシー反復アルゴリズムを提案する。
状態密度の懸念のあるシナリオにおける既存手法に対するCE-findingアプローチの利点を実演する各種ゲームで実験を行った。
関連論文リスト
- RICA2: Rubric-Informed, Calibrated Assessment of Actions [8.641411594566714]
動作品質評価(AQA)の予測不確かさを考慮に入れた深層確率モデルRICA2を提案する。
本手法はFineDiving, MTL-AQA, JIGSAWSなどの公開ベンチマークにおいて, スコア予測と不確実性校正性能に優れた手法であることを示す。
論文 参考訳(メタデータ) (2024-08-04T20:35:33Z) - Beyond Calibration: Assessing the Probabilistic Fit of Neural Regressors via Conditional Congruence [2.2359781747539396]
ディープネットワークは、しばしば過剰な自信と不一致な予測分布に悩まされる。
本稿では,条件付きカーネルの平均埋め込みを用いて,学習した予測分布とデータセットにおける経験的条件分布との距離を推定する,条件付きコングルーエンス誤差(CCE)について紹介する。
本研究では,1)データ生成プロセスが知られている場合の分布間の不一致を正確に定量化し,2)実世界の高次元画像回帰タスクに効果的にスケールし,3)未知のインスタンス上でのモデルの信頼性を評価することができることを示す。
論文 参考訳(メタデータ) (2024-05-20T23:30:07Z) - Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:34Z) - Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with
Differentiable Expected Calibration Error [50.86671887712424]
ドメイン適応型セマンティックセグメンテーションの流行は、ソースドメインデータの漏洩に関する懸念を引き起こしている。
ソースデータの要求を回避するため、ソースフリーなドメイン適応が実現可能なソリューションとして登場した。
校正誘導型ソースフリーなドメイン適応型セマンティックセマンティックセマンティクスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:28:34Z) - Local and Regional Counterfactual Rules: Summarized and Robust Recourses [5.524804393257921]
本稿では,各観測の局所的反実律を緩やかに規定する確率的枠組みを提案する。
これらの規則は、様々な反事実的説明の要約として機能し、堅牢な論説をもたらす。
当社のメソッドはPythonパッケージとして利用可能です。
論文 参考訳(メタデータ) (2022-09-29T06:08:54Z) - On the Robustness of Counterfactual Explanations to Adverse
Perturbations [0.0]
我々は、不運な状況によって自然に起こりうる、有害な摂動に対する堅牢性について検討する。
私たちは堅牢性の定義を2つ提供します。
我々の実験では、CEは多くの場合、堅牢ではないことが示され、もし悪質な摂動が起これば、彼らが要求する介入は予想よりもはるかにコストがかかる可能性がある。
論文 参考訳(メタデータ) (2022-01-22T13:57:45Z) - Density Constrained Reinforcement Learning [9.23225507471139]
状態密度関数に制約を直接設定することで,新しい視点から制約付き強化学習を研究する。
我々は密度関数とQ関数の双対性を利用して、密度制約されたRL問題を最適に解く効果的なアルゴリズムを開発する。
提案アルゴリズムは, ポリシー更新が不完全である場合でも, 境界誤差のある準最適解に収束することを示す。
論文 参考訳(メタデータ) (2021-06-24T04:22:03Z) - Online Learning of Competitive Equilibria in Exchange Economies [94.24357018178867]
経済学では、複数の有理エージェント間の資源不足の共有は古典的な問題である。
エージェントの好みを学習するためのオンライン学習機構を提案する。
数値シミュレーションにより,本機構の有効性を実証する。
論文 参考訳(メタデータ) (2021-06-11T21:32:17Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - C-Learning: Learning to Achieve Goals via Recursive Classification [163.7610618571879]
自律エージェントの将来の状態分布を予測・制御する問題について検討する。
我々の研究は、密度推定としてゴール条件付きRLの基礎を定めている。
論文 参考訳(メタデータ) (2020-11-17T19:58:56Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。