Fugu-MT 論文翻訳(概要): Maximum Causal Entropy IRL in Mean-Field Games and GNEP Framework for Forward RL

論文の概要: Maximum Causal Entropy IRL in Mean-Field Games and GNEP Framework for Forward RL

arxiv url: http://arxiv.org/abs/2401.06566v2
Date: Sat, 19 Jul 2025 09:43:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-22 20:51:31.610431
Title: Maximum Causal Entropy IRL in Mean-Field Games and GNEP Framework for Forward RL
Title（参考訳）: 平均フィールドゲームにおける最大因果エントロピーIRLとフォワードRLのためのGNEPフレームワーク
Authors: Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi,
Abstract要約: 本稿では、離散時間強化フィールドゲーム(MFFG)における因果エントロピー強化学習(IRL)の利用について検討する。 MFFGは一般ナッシュ問題(GNEP)として非作用状態勾配のデータを生成する
参考スコア（独自算出の注目度）: 2.867517731896504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores the use of Maximum Causal Entropy Inverse Reinforcement Learning (IRL) within the context of discrete-time stationary Mean-Field Games (MFGs) characterized by finite state spaces and an infinite-horizon, discounted-reward setting. Although the resulting optimization problem is non-convex with respect to policies, we reformulate it as a convex optimization problem in terms of state-action occupation measures by leveraging the linear programming framework of Markov Decision Processes. Based on this convex reformulation, we introduce a gradient descent algorithm with a guaranteed convergence rate to efficiently compute the optimal solution. Moreover, we develop a new method that conceptualizes the MFG problem as a Generalized Nash Equilibrium Problem (GNEP), enabling effective computation of the mean-field equilibrium for forward reinforcement learning (RL) problems and marking an advancement in MFG solution techniques. We further illustrate the practical applicability of our GNEP approach by employing this algorithm to generate data for numerical MFG examples.
Abstract（参考訳）: 本稿では,有限状態空間と無限水平逆方向の設定を特徴とする離散時間定常平均場ゲーム(MFG)の文脈における最大因果エントロピー逆強化学習(IRL)の利用について検討する。結果として得られる最適化問題はポリシーに関して非凸であるが、マルコフ決定プロセスの線形プログラミングフレームワークを活用することにより、状態-作用の占有対策の観点から凸最適化問題として再定義する。この凸修正に基づいて、最適解を効率的に計算するために、収束率を保証した勾配降下アルゴリズムを導入する。さらに,MFG問題を一般化ナッシュ平衡問題(GNEP)として概念化し,フォワード強化学習(RL)問題に対する平均場平衡を効果的に計算し,MFGソリューション技術の進歩を示す新しい手法を開発した。さらに、このアルゴリズムを用いて数値MFG例のデータを生成することにより、GNEPアプローチの実用性について述べる。

関連論文リスト

Finite-Sample Convergence Bounds for Trust Region Policy Optimization in Mean-Field Games [14.104031043622351]
有限状態空間におけるエルゴード平均フィールドゲーム(MFG)の近似ナッシュ平衡を計算するために設計された新しいアルゴリズムを提案する。 MFG文学における標準的な仮定の下で、我々はMF-TRPOの厳密な分析を行い、その収束に関する理論的保証を確立する。この研究は、RL法を平均場決定法でブリッジすることでMFG最適化を推し進め、複雑なマルチエージェント問題の解法に理論的に根ざしたアプローチを提供する。
論文参考訳（メタデータ） (2025-05-28T18:50:25Z)
Solving Nonlinear PDEs with Sparse Radial Basis Function Networks [0.0]
本稿では,スパルスラジアル基底関数(RBF)ネットワークを用いた非線形PDEの解法を提案する。この研究は、従来のRBFコロケーション法における長年にわたる課題と、物理インフォームドニューラルネットワーク(PINN)とガウス過程(GP)アプローチの限界によって動機付けられている。
論文参考訳（メタデータ） (2025-05-12T17:12:53Z)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
The Distributionally Robust Optimization Model of Sparse Principal Component Analysis [7.695578200868269]
乱数パラメータの確率分布が不確実な条件下でのスパース主成分分析(PCA)について考察する。この問題は、不確実性を捉えるための構成的アプローチに基づいて、分散ロバストな最適化(DRO)モデルとして定式化されている。内部問題は閉形式解を認め、元の DRO モデルをスティーフェル多様体上の同値な最小化問題に再構成する。
論文参考訳（メタデータ） (2025-03-04T11:00:08Z)
A Quantum Genetic Algorithm Framework for the MaxCut Problem [49.59986385400411]
提案手法では,Groverをベースとした進化的枠組みと分割・分散原理を用いた量子遺伝的アルゴリズム(QGA)を提案する。完全グラフ上では、提案手法は真に最適なMaxCut値を一貫して達成し、セミデフィニティプログラミング(SDP)アプローチより優れている。 ErdHos-R'enyiランダムグラフでは、QGAは競合性能を示し、SDP結果の92-96%で中央値の解が得られる。
論文参考訳（メタデータ） (2025-01-02T05:06:16Z)
Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文参考訳（メタデータ） (2024-11-07T23:04:48Z)
From Inverse Optimization to Feasibility to ERM [11.731853838892487]
パラメータの予測に付加的なコンテキスト情報を利用するコンテキスト逆設定について検討する。合成および実世界の問題に対する我々のアプローチを実験的に検証し,既存手法と比較して性能が向上したことを示す。
論文参考訳（メタデータ） (2024-02-27T21:06:42Z)
Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文参考訳（メタデータ） (2024-02-16T16:35:18Z)
Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-10-08T23:39:38Z)
Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces [1.4999444543328293]
本稿では,平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために,強化学習(RL)アルゴリズムを提案する。提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせて提案する。アルゴリズムの修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
論文参考訳（メタデータ） (2023-09-19T22:37:47Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
Constrained Optimization via Exact Augmented Lagrangian and Randomized Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文参考訳（メタデータ） (2023-05-28T06:33:37Z)
Inverse Reinforcement Learning With Constraint Recovery [3.8073142980732992]
本稿では,制約決定過程(CMDP)問題に対する新しい逆強化学習法を提案する。グリッドワールド環境におけるアルゴリズムの有効性を実証する。
論文参考訳（メタデータ） (2023-05-14T11:49:37Z)
An Asymptotically Optimal Algorithm for the Convex Hull Membership Problem [21.312152185262]
純粋な探査環境における凸船体構成問題について検討する。我々はThompson-CHMというアルゴリズムを初めて提案し、そのモジュラー設計は停止規則とサンプリング規則から構成される。
論文参考訳（メタデータ） (2023-02-03T23:41:53Z)
Stochastic Mirror Descent for Large-Scale Sparse Recovery [13.500750042707407]
本稿では,2次近似の高次元スパースパラメータの統計的推定への応用について論じる。提案アルゴリズムは, 回帰器分布の弱い仮定の下で, 推定誤差の最適収束を実現する。
論文参考訳（メタデータ） (2022-10-23T23:23:23Z)
Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文参考訳（メタデータ） (2021-02-27T19:28:39Z)
Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文参考訳（メタデータ） (2021-02-22T18:56:26Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Amortized Conditional Normalized Maximum Likelihood: Reliable Out of Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文参考訳（メタデータ） (2020-11-05T08:04:34Z)
Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic Mean-Field Games [14.209473797379667]
離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈における大集団多エージェント強化学習(RL)について検討する。我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-09-09T15:17:52Z)
A Dynamical Systems Approach for Convergence of the Bayesian EM Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文参考訳（メタデータ） (2020-06-23T01:34:18Z)
Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文参考訳（メタデータ） (2020-06-22T03:13:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。