論文の概要: Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games
- arxiv url: http://arxiv.org/abs/2507.14529v1
- Date: Sat, 19 Jul 2025 08:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.928603
- Title: Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games
- Title(参考訳): 平均フィールドゲームのためのカーネルに基づく最大エントロピー逆強化学習
- Authors: Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi,
- Abstract要約: 静止平均フィールドゲームにおける最大因果エントロピー逆強化学習問題を考察する。
これにより、エキスパートのデモンストレーションから直接リッチで潜在的に非線形な報酬構造を推測することができる。
提案手法の有効性を,専門家の行動を正確に再現する平均フィールドトラフィックルーティングゲームに示す。
- 参考スコア(独自算出の注目度): 2.867517731896504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the maximum causal entropy inverse reinforcement learning problem for infinite-horizon stationary mean-field games, in which we model the unknown reward function within a reproducing kernel Hilbert space. This allows the inference of rich and potentially nonlinear reward structures directly from expert demonstrations, in contrast to most existing inverse reinforcement learning approaches for mean-field games that typically restrict the reward function to a linear combination of a fixed finite set of basis functions. We also focus on the infinite-horizon cost structure, whereas prior studies primarily rely on finite-horizon formulations. We introduce a Lagrangian relaxation to this maximum causal entropy inverse reinforcement learning problem that enables us to reformulate it as an unconstrained log-likelihood maximization problem, and obtain a solution \lk{via} a gradient ascent algorithm. To illustrate the theoretical consistency of the algorithm, we establish the smoothness of the log-likelihood objective by proving the Fr\'echet differentiability of the related soft Bellman operators with respect to the parameters in the reproducing kernel Hilbert space. We demonstrate the effectiveness of our method on a mean-field traffic routing game, where it accurately recovers expert behavior.
- Abstract(参考訳): 無限水平定常平均場ゲームに対する最大因果エントロピー逆強化学習問題を考察し、再生カーネルヒルベルト空間内の未知の報酬関数をモデル化する。
これにより、専門家のデモンストレーションから直接リッチで潜在的に非線形な報酬構造を推論することができ、通常、報酬関数を固定有限な基底関数の線型結合に制限する平均場ゲームに対するほとんどの逆強化学習アプローチとは対照的である。
また、無限水平のコスト構造にも焦点をあてる一方、先行研究は主に有限水平の定式化に依存している。
我々は、この最大因果エントロピー逆強化学習問題にラグランジアン緩和を導入し、制約のない対数様の最大化問題としてそれを再構成し、勾配上昇アルゴリズムを得る。
このアルゴリズムの理論的一貫性を説明するために、再生カーネルヒルベルト空間のパラメータに関して、関連するソフトベルマン作用素のFr'echet微分可能性を証明することにより、対数的目的の滑らかさを確立する。
本研究では,提案手法の有効性を,専門家の行動を正確に再現する平均フィールドトラフィックルーティングゲームに示す。
関連論文リスト
- An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model [9.531082746970286]
機械学習において、動的選択(DDC)モデル(オフライン最大エントロピー正規化逆強化学習(オフラインMaxEnt-IRL))を推定する問題について検討する。
目的は、オフラインの振舞いデータからエージェントの振舞いを管理する$Q*$関数をリカバリすることである。
線形パラメータ化報酬の制限的仮定を使わずにこれらの問題を解くための大域収束勾配法を提案する。
論文 参考訳(メタデータ) (2025-02-19T22:22:20Z) - Stability Bounds for the Unfolded Forward-Backward Algorithm [13.537414663819971]
劣化演算子が線形で知られている逆問題を解決するために設計されたニューラルネットワークアーキテクチャを考察する。
入力摂動に対する逆法のロバスト性は理論的に解析される。
我々の研究の重要な新規性は、そのバイアスの摂動に対する提案されたネットワークの堅牢性を調べることである。
論文 参考訳(メタデータ) (2024-12-23T11:55:41Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Linear convergence of forward-backward accelerated algorithms without knowledge of the modulus of strong convexity [14.0409219811182]
我々はネステロフの加速勾配降下(NAG)とFISTAの両方が強い凸関数に対して線形収束を示すことを示した。
我々は、運動エネルギーの動的適応係数を含むリアプノフ関数の創出に際し、特異なアプローチを強調した。
論文 参考訳(メタデータ) (2023-06-16T08:58:40Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - Gradient Backpropagation Through Combinatorial Algorithms: Identity with
Projection Works [20.324159725851235]
ゼロあるいは未定義の解法に対する意味のある置き換えは、効果的な勾配に基づく学習に不可欠である。
本稿では, 離散解空間の幾何学を応用して, 後方パス上の負の同一性として処理する原理的手法を提案する。
論文 参考訳(メタデータ) (2022-05-30T16:17:09Z) - Trajectory Inference via Mean-field Langevin in Path Space [0.17205106391379024]
軌道推論は、時間的限界のスナップショットから集団のダイナミクスを回復することを目的としている。
経路空間におけるウィナー測度に対するミンエントロピー推定器は、Lavenantらによって導入された。
論文 参考訳(メタデータ) (2022-05-14T23:13:00Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Lifting the Convex Conjugate in Lagrangian Relaxations: A Tractable
Approach for Continuous Markov Random Fields [53.31927549039624]
断片的な離散化は既存の離散化問題と矛盾しないことを示す。
この理論を2つの画像のマッチング問題に適用する。
論文 参考訳(メタデータ) (2021-07-13T12:31:06Z) - A Stochastic Composite Augmented Lagrangian Method For Reinforcement
Learning [9.204659134755795]
深層強化学習のための線形プログラミング(LP)の定式化について検討する。
拡張ラグランジアン法は、LPの解法において二重サンプリング障害に悩まされる。
深層パラメタライズされたラグランジアン法を提案する。
論文 参考訳(メタデータ) (2021-05-20T13:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。