論文の概要: Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field
Games
- arxiv url: http://arxiv.org/abs/2401.06566v1
- Date: Fri, 12 Jan 2024 13:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-15 19:20:45.854632
- Title: Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field
Games
- Title(参考訳): 平均フィールドゲームにおける最大因果エントロピー逆強化学習
- Authors: Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi
- Abstract要約: 離散時間平均場ゲーム(MFG)におけるカジュアルエントロピー逆強化(IRL)問題について,無限水平ディスカウント・リワード最適性基準の下で紹介する。
本稿では,MFG問題を平均場平衡問題を計算可能な一般化ナッシュ平衡問題(GN)として定式化する。
この方法は、数値的な例のためのデータを生成するために用いられる。
- 参考スコア(独自算出の注目度): 3.2228025627337864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the maximum casual entropy Inverse Reinforcement
Learning (IRL) problem for discrete-time mean-field games (MFGs) under an
infinite-horizon discounted-reward optimality criterion. The state space of a
typical agent is finite. Our approach begins with a comprehensive review of the
maximum entropy IRL problem concerning deterministic and stochastic Markov
decision processes (MDPs) in both finite and infinite-horizon scenarios.
Subsequently, we formulate the maximum casual entropy IRL problem for MFGs - a
non-convex optimization problem with respect to policies. Leveraging the linear
programming formulation of MDPs, we restructure this IRL problem into a convex
optimization problem and establish a gradient descent algorithm to compute the
optimal solution with a rate of convergence. Finally, we present a new
algorithm by formulating the MFG problem as a generalized Nash equilibrium
problem (GNEP), which is capable of computing the mean-field equilibrium (MFE)
for the forward RL problem. This method is employed to produce data for a
numerical example. We note that this novel algorithm is also applicable to
general MFE computations.
- Abstract(参考訳): 本稿では,離散時間平均場ゲーム(MFG)における最大カジュアルエントロピー逆強化学習(IRL)問題を,無限水平割引逆最適条件の下で導入する。
典型的なエージェントの状態空間は有限である。
我々のアプローチは、有限および無限水平シナリオにおける決定論的および確率的マルコフ決定過程(MDP)に関する最大エントロピーIRL問題の包括的レビューから始まる。
その後、MFGの最大カジュアルエントロピーIRL問題を定式化し、ポリシーに対する非凸最適化問題である。
mdpsの線形計画定式化を利用して、このirl問題を凸最適化問題に再構成し、収束率で最適解を計算するための勾配降下アルゴリズムを確立する。
最後に,MFG問題を一般化されたナッシュ平衡問題 (GNEP) として定式化し,前方RL問題に対する平均場平衡 (MFE) を計算可能な新しいアルゴリズムを提案する。
この方法は数値例のデータを生成するために用いられる。
このアルゴリズムは一般のMFE計算にも適用可能である。
関連論文リスト
- Finite-Sample Convergence Bounds for Trust Region Policy Optimization in Mean-Field Games [14.104031043622351]
有限状態空間におけるエルゴード平均フィールドゲーム(MFG)の近似ナッシュ平衡を計算するために設計された新しいアルゴリズムを提案する。
MFG文学における標準的な仮定の下で、我々はMF-TRPOの厳密な分析を行い、その収束に関する理論的保証を確立する。
この研究は、RL法を平均場決定法でブリッジすることでMFG最適化を推し進め、複雑なマルチエージェント問題の解法に理論的に根ざしたアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-28T18:50:25Z) - Solving Nonlinear PDEs with Sparse Radial Basis Function Networks [0.0]
本稿では,スパルスラジアル基底関数(RBF)ネットワークを用いた非線形PDEの解法を提案する。
この研究は、従来のRBFコロケーション法における長年にわたる課題と、物理インフォームドニューラルネットワーク(PINN)とガウス過程(GP)アプローチの限界によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-12T17:12:53Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - The Distributionally Robust Optimization Model of Sparse Principal Component Analysis [7.695578200868269]
乱数パラメータの確率分布が不確実な条件下でのスパース主成分分析(PCA)について考察する。
この問題は、不確実性を捉えるための構成的アプローチに基づいて、分散ロバストな最適化(DRO)モデルとして定式化されている。
内部問題は閉形式解を認め、元の DRO モデルをスティーフェル多様体上の同値な最小化問題に再構成する。
論文 参考訳(メタデータ) (2025-03-04T11:00:08Z) - A Quantum Genetic Algorithm Framework for the MaxCut Problem [49.59986385400411]
提案手法では,Groverをベースとした進化的枠組みと分割・分散原理を用いた量子遺伝的アルゴリズム(QGA)を提案する。
完全グラフ上では、提案手法は真に最適なMaxCut値を一貫して達成し、セミデフィニティプログラミング(SDP)アプローチより優れている。
ErdHos-R'enyiランダムグラフでは、QGAは競合性能を示し、SDP結果の92-96%で中央値の解が得られる。
論文 参考訳(メタデータ) (2025-01-02T05:06:16Z) - Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - From Inverse Optimization to Feasibility to ERM [11.731853838892487]
パラメータの予測に付加的なコンテキスト情報を利用するコンテキスト逆設定について検討する。
合成および実世界の問題に対する我々のアプローチを実験的に検証し,既存手法と比較して性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-02-27T21:06:42Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces [1.4999444543328293]
本稿では,平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために,強化学習(RL)アルゴリズムを提案する。
提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせて提案する。
アルゴリズムの修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
論文 参考訳(メタデータ) (2023-09-19T22:37:47Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Inverse Reinforcement Learning With Constraint Recovery [3.8073142980732992]
本稿では,制約決定過程(CMDP)問題に対する新しい逆強化学習法を提案する。
グリッドワールド環境におけるアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-14T11:49:37Z) - An Asymptotically Optimal Algorithm for the Convex Hull Membership Problem [21.312152185262]
純粋な探査環境における凸船体構成問題について検討する。
我々はThompson-CHMというアルゴリズムを初めて提案し、そのモジュラー設計は停止規則とサンプリング規則から構成される。
論文 参考訳(メタデータ) (2023-02-03T23:41:53Z) - Stochastic Mirror Descent for Large-Scale Sparse Recovery [13.500750042707407]
本稿では,2次近似の高次元スパースパラメータの統計的推定への応用について論じる。
提案アルゴリズムは, 回帰器分布の弱い仮定の下で, 推定誤差の最適収束を実現する。
論文 参考訳(メタデータ) (2022-10-23T23:23:23Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic
Mean-Field Games [14.209473797379667]
離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈における大集団多エージェント強化学習(RL)について検討する。
我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。
本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-09T15:17:52Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。
我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。
その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文 参考訳(メタデータ) (2020-06-22T03:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。