Fugu-MT 論文翻訳(概要): Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field Games

論文の概要: Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field Games

arxiv url: http://arxiv.org/abs/2401.06566v1
Date: Fri, 12 Jan 2024 13:22:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 19:20:45.854632
Title: Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field Games
Title（参考訳）: 平均フィールドゲームにおける最大因果エントロピー逆強化学習
Authors: Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi
Abstract要約: 離散時間平均場ゲーム(MFG)におけるカジュアルエントロピー逆強化(IRL)問題について,無限水平ディスカウント・リワード最適性基準の下で紹介する。本稿では,MFG問題を平均場平衡問題を計算可能な一般化ナッシュ平衡問題(GN)として定式化する。この方法は、数値的な例のためのデータを生成するために用いられる。
参考スコア（独自算出の注目度）: 3.2228025627337864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce the maximum casual entropy Inverse Reinforcement Learning (IRL) problem for discrete-time mean-field games (MFGs) under an infinite-horizon discounted-reward optimality criterion. The state space of a typical agent is finite. Our approach begins with a comprehensive review of the maximum entropy IRL problem concerning deterministic and stochastic Markov decision processes (MDPs) in both finite and infinite-horizon scenarios. Subsequently, we formulate the maximum casual entropy IRL problem for MFGs - a non-convex optimization problem with respect to policies. Leveraging the linear programming formulation of MDPs, we restructure this IRL problem into a convex optimization problem and establish a gradient descent algorithm to compute the optimal solution with a rate of convergence. Finally, we present a new algorithm by formulating the MFG problem as a generalized Nash equilibrium problem (GNEP), which is capable of computing the mean-field equilibrium (MFE) for the forward RL problem. This method is employed to produce data for a numerical example. We note that this novel algorithm is also applicable to general MFE computations.
Abstract（参考訳）: 本稿では,離散時間平均場ゲーム(MFG)における最大カジュアルエントロピー逆強化学習(IRL)問題を,無限水平割引逆最適条件の下で導入する。典型的なエージェントの状態空間は有限である。我々のアプローチは、有限および無限水平シナリオにおける決定論的および確率的マルコフ決定過程(MDP)に関する最大エントロピーIRL問題の包括的レビューから始まる。その後、MFGの最大カジュアルエントロピーIRL問題を定式化し、ポリシーに対する非凸最適化問題である。 mdpsの線形計画定式化を利用して、このirl問題を凸最適化問題に再構成し、収束率で最適解を計算するための勾配降下アルゴリズムを確立する。最後に,MFG問題を一般化されたナッシュ平衡問題 (GNEP) として定式化し,前方RL問題に対する平均場平衡 (MFE) を計算可能な新しいアルゴリズムを提案する。この方法は数値例のデータを生成するために用いられる。このアルゴリズムは一般のMFE計算にも適用可能である。

関連論文リスト

The Distributionally Robust Optimization Model of Sparse Principal Component Analysis [7.695578200868269]
乱数パラメータの確率分布が不確実な条件下でのスパース主成分分析(PCA)について考察する。この問題は、不確実性を捉えるための構成的アプローチに基づいて、分散ロバストな最適化(DRO)モデルとして定式化されている。内部問題は閉形式解を認め、元の DRO モデルをスティーフェル多様体上の同値な最小化問題に再構成する。
論文参考訳（メタデータ） (2025-03-04T11:00:08Z)
Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文参考訳（メタデータ） (2024-11-07T23:04:48Z)
Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文参考訳（メタデータ） (2024-02-16T16:35:18Z)
Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-10-08T23:39:38Z)
Constrained Optimization via Exact Augmented Lagrangian and Randomized Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文参考訳（メタデータ） (2023-05-28T06:33:37Z)
Inverse Reinforcement Learning With Constraint Recovery [3.8073142980732992]
本稿では,制約決定過程(CMDP)問題に対する新しい逆強化学習法を提案する。グリッドワールド環境におけるアルゴリズムの有効性を実証する。
論文参考訳（メタデータ） (2023-05-14T11:49:37Z)
An Asymptotically Optimal Algorithm for the Convex Hull Membership Problem [21.312152185262]
純粋な探査環境における凸船体構成問題について検討する。我々はThompson-CHMというアルゴリズムを初めて提案し、そのモジュラー設計は停止規則とサンプリング規則から構成される。
論文参考訳（メタデータ） (2023-02-03T23:41:53Z)
Stochastic Mirror Descent for Large-Scale Sparse Recovery [13.500750042707407]
本稿では,2次近似の高次元スパースパラメータの統計的推定への応用について論じる。提案アルゴリズムは, 回帰器分布の弱い仮定の下で, 推定誤差の最適収束を実現する。
論文参考訳（メタデータ） (2022-10-23T23:23:23Z)
Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文参考訳（メタデータ） (2021-02-27T19:28:39Z)
Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文参考訳（メタデータ） (2021-02-22T18:56:26Z)
Amortized Conditional Normalized Maximum Likelihood: Reliable Out of Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文参考訳（メタデータ） (2020-11-05T08:04:34Z)
Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic Mean-Field Games [14.209473797379667]
離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈における大集団多エージェント強化学習(RL)について検討する。我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-09-09T15:17:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。