Fugu-MT 論文翻訳(概要): Learning Density-Based Correlated Equilibria for Markov Games

論文の概要: Learning Density-Based Correlated Equilibria for Markov Games

arxiv url: http://arxiv.org/abs/2302.08001v1
Date: Thu, 16 Feb 2023 00:19:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-17 15:29:22.035304
Title: Learning Density-Based Correlated Equilibria for Markov Games
Title（参考訳）: マルコフゲームのための密度に基づく相関平衡学習
Authors: Libo Zhang, Yang Chen, Toru Takisaka, Bakh Khoussainov, Michael Witbrock, and Jiamou Liu
Abstract要約: 相関平衡 (Correlated Equilibrium, CE) は、エージェント間の協調を捉えるよく確立された解概念である。本稿では, 状態密度を選択基準として明確に捉えたCEの新たな概念である密度ベース相関平衡(DBCE)を提案する。
参考スコア（独自算出の注目度）: 14.004941066684134
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Correlated Equilibrium (CE) is a well-established solution concept that captures coordination among agents and enjoys good algorithmic properties. In real-world multi-agent systems, in addition to being in an equilibrium, agents' policies are often expected to meet requirements with respect to safety, and fairness. Such additional requirements can often be expressed in terms of the state density which measures the state-visitation frequencies during the course of a game. However, existing CE notions or CE-finding approaches cannot explicitly specify a CE with particular properties concerning state density; they do so implicitly by either modifying reward functions or using value functions as the selection criteria. The resulting CE may thus not fully fulfil the state-density requirements. In this paper, we propose Density-Based Correlated Equilibria (DBCE), a new notion of CE that explicitly takes state density as selection criterion. Concretely, we instantiate DBCE by specifying different state-density requirements motivated by real-world applications. To compute DBCE, we put forward the Density Based Correlated Policy Iteration algorithm for the underlying control problem. We perform experiments on various games where results demonstrate the advantage of our CE-finding approach over existing methods in scenarios with state-density concerns.
Abstract（参考訳）: Correlated Equilibrium (CE) は、エージェント間の協調を捉え、優れたアルゴリズム特性を享受する、確立されたソリューション概念である。現実のマルチエージェントシステムでは、平衡性に加えて、エージェントのポリシーは安全と公正性に関する要件を満たすことがしばしば期待される。このような追加要件は、しばしば、ゲーム中の状態参照頻度を測定する状態密度の観点から表現される。しかし、既存のCE概念やCE-findingアプローチでは、状態密度に関する特定の特性を持つCEを明示的に指定することはできない。したがって、CEは状態密度要件を完全に満たさない。本稿では,状態密度を選択基準として明確に捉えるCEの新しい概念である密度ベース相関平衡(DBCE)を提案する。具体的には、実世界のアプリケーションによって動機付けられた異なる状態密度要求を指定することでDBCEをインスタンス化する。 DBCEを計算するために,基礎となる制御問題に対する密度ベース関連ポリシー反復アルゴリズムを提案する。状態密度の懸念のあるシナリオにおける既存手法に対するCE-findingアプローチの利点を実演する各種ゲームで実験を行った。

関連論文リスト

Lost in Vagueness: Towards Context-Sensitive Standards for Robustness Assessment under the EU AI Act [2.740981829798319]
ロバストネスは、EU人工知能法(AI法)に基づくリスクの高いAIシステムにとって重要な要件である本稿では,AIシステムが堅牢であることの意味を考察し,文脈に敏感な標準化の必要性を示す。
論文参考訳（メタデータ） (2025-11-19T17:06:36Z)
CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection [56.302586730134806]
本稿では,新しい評価指標である信頼性・一貫性評価(CCE)を紹介する。 CCEは同時に、予測の信頼性と不確実性を測定する。 RankEvalは、さまざまなメトリクスのランキング機能を比較するためのベンチマークです。
論文参考訳（メタデータ） (2025-09-01T03:38:38Z)
Uncertainty-driven Embedding Convolution [12.284127272660982]
不確実性駆動型埋め込み畳み込み(UEC)を提案する。 UECは決定論的埋め込みをポストホックな方法で確率論的に変換する。その後、サロゲート損失の下でベイズ最適解に接地した埋め込み不確実性に基づいて適応アンサンブル重みを計算する。
論文参考訳（メタデータ） (2025-07-28T11:15:25Z)
Adaptive Set-Mass Calibration with Conformal Prediction [60.47079469141295]
提案手法は,まず共形予測から始まり,所望のカバレッジを与えるラベルの集合を得る。次に、共形制約に合わせて、質量正規化と温度スケーリングに基づくルールの2つの簡単なポストホックキャリブレータをインスタンス化する。
論文参考訳（メタデータ） (2025-05-21T12:18:15Z)
SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文参考訳（メタデータ） (2025-04-19T03:01:45Z)
Investigating Pure State Uniqueness in Tomography via Optimization [4.396311564396993]
量子状態(QST)は、測定データを通して量子システムの理解と特徴付けに不可欠である。従来のQST手法は拡張性の問題に直面しており、一般化された状態に対して$mathcalO(d2)の測定を必要とする。本稿では,これらの問題に対処するための拡張ラグランジアン法(ALM)に基づく統一フレームワークを開発する。
論文参考訳（メタデータ） (2024-12-31T07:57:03Z)
RICA2: Rubric-Informed, Calibrated Assessment of Actions [8.641411594566714]
動作品質評価(AQA)の予測不確かさを考慮に入れた深層確率モデルRICA2を提案する。本手法はFineDiving, MTL-AQA, JIGSAWSなどの公開ベンチマークにおいて, スコア予測と不確実性校正性能に優れた手法であることを示す。
論文参考訳（メタデータ） (2024-08-04T20:35:33Z)
Beyond Calibration: Assessing the Probabilistic Fit of Neural Regressors via Conditional Congruence [2.2359781747539396]
ディープネットワークは、しばしば過剰な自信と不一致な予測分布に悩まされる。本稿では,条件付きカーネルの平均埋め込みを用いて,学習した予測分布とデータセットにおける経験的条件分布との距離を推定する,条件付きコングルーエンス誤差(CCE)について紹介する。本研究では,1)データ生成プロセスが知られている場合の分布間の不一致を正確に定量化し,2)実世界の高次元画像回帰タスクに効果的にスケールし,3)未知のインスタンス上でのモデルの信頼性を評価することができることを示す。
論文参考訳（メタデータ） (2024-05-20T23:30:07Z)
Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文参考訳（メタデータ） (2024-05-06T17:14:34Z)
Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error [50.86671887712424]
ドメイン適応型セマンティックセグメンテーションの流行は、ソースドメインデータの漏洩に関する懸念を引き起こしている。ソースデータの要求を回避するため、ソースフリーなドメイン適応が実現可能なソリューションとして登場した。校正誘導型ソースフリーなドメイン適応型セマンティックセマンティックセマンティクスフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-06T03:28:34Z)
Local and Regional Counterfactual Rules: Summarized and Robust Recourses [5.524804393257921]
本稿では,各観測の局所的反実律を緩やかに規定する確率的枠組みを提案する。これらの規則は、様々な反事実的説明の要約として機能し、堅牢な論説をもたらす。当社のメソッドはPythonパッケージとして利用可能です。
論文参考訳（メタデータ） (2022-09-29T06:08:54Z)
On the Robustness of Counterfactual Explanations to Adverse Perturbations [0.0]
我々は、不運な状況によって自然に起こりうる、有害な摂動に対する堅牢性について検討する。私たちは堅牢性の定義を2つ提供します。我々の実験では、CEは多くの場合、堅牢ではないことが示され、もし悪質な摂動が起これば、彼らが要求する介入は予想よりもはるかにコストがかかる可能性がある。
論文参考訳（メタデータ） (2022-01-22T13:57:45Z)
Density Constrained Reinforcement Learning [9.23225507471139]
状態密度関数に制約を直接設定することで,新しい視点から制約付き強化学習を研究する。我々は密度関数とQ関数の双対性を利用して、密度制約されたRL問題を最適に解く効果的なアルゴリズムを開発する。提案アルゴリズムは, ポリシー更新が不完全である場合でも, 境界誤差のある準最適解に収束することを示す。
論文参考訳（メタデータ） (2021-06-24T04:22:03Z)
Online Learning of Competitive Equilibria in Exchange Economies [94.24357018178867]
経済学では、複数の有理エージェント間の資源不足の共有は古典的な問題である。エージェントの好みを学習するためのオンライン学習機構を提案する。数値シミュレーションにより,本機構の有効性を実証する。
論文参考訳（メタデータ） (2021-06-11T21:32:17Z)
Distributed Q-Learning with State Tracking for Multi-agent Networked Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文参考訳（メタデータ） (2020-12-22T22:03:49Z)
C-Learning: Learning to Achieve Goals via Recursive Classification [163.7610618571879]
自律エージェントの将来の状態分布を予測・制御する問題について検討する。我々の研究は、密度推定としてゴール条件付きRLの基礎を定めている。
論文参考訳（メタデータ） (2020-11-17T19:58:56Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。