Fugu-MT 論文翻訳(概要): Anytime-Constrained Equilibria in Polynomial Time

論文の概要: Anytime-Constrained Equilibria in Polynomial Time

arxiv url: http://arxiv.org/abs/2410.23637v2
Date: Tue, 04 Mar 2025 18:40:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:36.977183
Title: Anytime-Constrained Equilibria in Polynomial Time
Title（参考訳）: 多項式時間における時間制約平衡
Authors: Jeremy McMahan,
Abstract要約: 本稿では,実現可能な政策の計算的特徴を含む任意の時間制約均衡の包括的理論を提案する。また、アクション制約付きマルコフゲームに対する効率的な計算の第一理論も開発し、これは独立した関心を持つかもしれない。
参考スコア（独自算出の注目度）: 1.223779595809275
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We extend anytime constraints to the Markov game setting and the corresponding solution concept of an anytime-constrained equilibrium (ACE). Then, we present a comprehensive theory of anytime-constrained equilibria that includes (1) a computational characterization of feasible policies, (2) a fixed-parameter tractable algorithm for computing ACE, and (3) a polynomial-time algorithm for approximately computing ACE. Since computing a feasible policy is NP-hard even for two-player zero-sum games, our approximation guarantees are optimal so long as $P \neq NP$. We also develop the first theory of efficient computation for action-constrained Markov games, which may be of independent interest.
Abstract（参考訳）: 我々は、任意の時間制約をマルコフゲームの設定と、それに対応する任意の時間制約均衡(ACE)の概念に拡張する。そこで我々は,(1)実現可能なポリシーの計算的特徴,(2)ACEの計算のための固定パラメータ抽出可能なアルゴリズム,(3)ACEの近似計算のための多項式時間アルゴリズムを含む,時間制約のある平衡の包括的理論を提案する。 2プレイヤのゼロサムゲームでも実現可能なポリシーはNPハードなので、我々の近似保証は$P \neq NP$と同じくらい最適である。また、アクション制約付きマルコフゲームに対する効率的な計算の第一理論も開発し、これは独立した関心を持つかもしれない。

関連論文リスト

Efficiently Solving Turn-Taking Stochastic Games with Extensive-Form Correlation [52.16923999754027]
そこで我々は,Stackelbergの大規模相関平衡の計算アルゴリズムを提案する。また,大域的相関平衡を近似計算するアルゴリズムも提案する。ほぼ最適なEFCEのアルゴリズムは、私たちの知る限り、3つのデシラタを同時に達成した最初のアルゴリズムである。
論文参考訳（メタデータ） (2024-12-22T09:12:05Z)
Barriers to Welfare Maximization with No-Regret Learning [68.66209476382213]
我々は、ほぼ最適の$T$-sparse CCEの計算限界を低く証明する。特に,最大傾斜角の不適応性は,時間内に非自明な間隔を達成できないことを示す。
論文参考訳（メタデータ） (2024-11-04T00:34:56Z)
Deterministic Policies for Constrained Reinforcement Learning in Polynomial Time [1.223779595809275]
本アルゴリズムは,制約付き強化学習問題に対するほぼ最適決定性ポリシーを効率的に計算する。我々の研究は、2つの長年の研究にまたがる3つのオープンな疑問に答える。
論文参考訳（メタデータ） (2024-05-23T05:27:51Z)
Independent Learning in Constrained Markov Potential Games [19.083595175045073]
制約付きマルコフゲームは、マルチエージェント強化学習問題をモデル化するための正式なフレームワークを提供する。近似的制約付きナッシュ平衡を学習するための独立ポリシー勾配アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-27T20:57:35Z)
Hardness of Independent Learning and Sparse Equilibrium Computation in Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文参考訳（メタデータ） (2023-03-22T03:28:12Z)
PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文参考訳（メタデータ） (2023-03-02T05:08:15Z)
Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文参考訳（メタデータ） (2022-08-03T16:41:01Z)
Provably Efficient Fictitious Play Policy Optimization for Zero-Sum Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文参考訳（メタデータ） (2022-07-25T18:29:16Z)
Efficient Algorithms for Planning with Participation Constraints [74.74967476995572]
我々は[Zhang et al., 2022]に導入された参加制約を伴う計画の問題を考える。この問題では、プリンシパルが決定プロセスのアクションを選択し、プリンシパルとエージェントの別々のユーティリティが生成される。有限ホライズン設定では,これまでは$varepsilon$-approximationという付加値しか知られていなかった。
論文参考訳（メタデータ） (2022-05-16T15:47:41Z)
The Complexity of Markov Equilibrium in Stochastic Games [44.77547027158141]
一般ゲームにおける確率的定常なマルコフ粗相関平衡(CCE)の計算は、計算的に難解であることを示す。この結果は、正確なCCEを効率的に計算可能な正規形式ゲームとは対照的である。
論文参考訳（メタデータ） (2022-04-08T10:51:01Z)
Optimal Correlated Equilibria in General-Sum Extensive-Form Games: Fixed-Parameter Algorithms, Hardness, and Two-Sided Column-Generation [78.48747645545944]
ワイドフォームゲームにおいて,様々な種類の最適平衡を求める問題について検討する。これら3つの概念のすべてに最適な平衡を計算するための新しいアルゴリズムを導入する。
論文参考訳（メタデータ） (2022-03-14T15:21:18Z)
Faster Algorithm and Sharper Analysis for Constrained Markov Decision Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文参考訳（メタデータ） (2021-10-20T02:57:21Z)
Efficient semidefinite-programming-based inference for binary and multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文参考訳（メタデータ） (2020-12-04T15:36:29Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)
Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints [38.2783003051101]
本稿では,有限地平線における全報酬の最大化と,各エポックにおける制約を確率1で満たすため,エージェントがポリシーを選択する,制約付きマルコフ決定プロセス(PCMDP)について考察する。そこで本研究では,PCMDP問題を制約のない問題に変換するモデルフリーアルゴリズムを提案し,Q-ラーニングに基づくアプローチを適用した。
論文参考訳（メタデータ） (2020-03-11T23:23:29Z)
Public Bayesian Persuasion: Being Almost Optimal and Almost Persuasive [57.47546090379434]
i) 任意の状態空間, (ii) 任意の行動空間, (iii) 任意の送信者のユーティリティ関数を用いて, 一般の状況下での公衆の説得問題を考察する。任意の公的な説得問題に対して準多項式時間ビクテリア近似アルゴリズムを提案し、特定の設定でQPTASを出力する。
論文参考訳（メタデータ） (2020-02-12T18:59:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。