論文の概要: FP-IRL: Fokker-Planck Inverse Reinforcement Learning -- A Physics-Constrained Approach to Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2306.10407v2
- Date: Tue, 21 Oct 2025 19:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:01.233952
- Title: FP-IRL: Fokker-Planck Inverse Reinforcement Learning -- A Physics-Constrained Approach to Markov Decision Processes
- Title(参考訳): FP-IRL:Fokker-Planck Inverse Reinforcement Learning -- マルコフ決定過程に対する物理制約付きアプローチ
- Authors: Chengyang Huang, Siddhartha Srivastava, Kenneth K. Y. Ho, Kathy E. Luker, Gary D. Luker, Xun Huan, Krishna Garikipati,
- Abstract要約: 我々はFokker--Planck逆強化学習(FP-IRL)を提案する。
FP-IRLは、サンプルトランジションへのアクセスを必要とせず、報酬関数と遷移関数の両方を軌道データから直接推論する。
その結果、FP-IRLは、計算効率と物理的解釈可能性を維持しながら、エージェントインセンティブの正確な回復を実現することがわかった。
- 参考スコア(独自算出の注目度): 0.12189064606822476
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Inverse reinforcement learning (IRL) is a powerful paradigm for uncovering the incentive structure that drives agent behavior, by inferring an unknown reward function from observed trajectories within a Markov decision process (MDP). However, most existing IRL methods require access to the transition function, either prescribed or estimated \textit{a priori}, which poses significant challenges when the underlying dynamics are unknown, unobservable, or not easily sampled. We propose Fokker--Planck inverse reinforcement learning (FP-IRL), a novel physics-constrained IRL framework tailored for systems governed by Fokker--Planck (FP) dynamics. FP-IRL simultaneously infers both the reward and transition functions directly from trajectory data, without requiring access to sampled transitions. Our method leverages a conjectured equivalence between MDPs and the FP equation, linking reward maximization in MDPs with free energy minimization in FP dynamics. This connection enables inference of the potential function using our inference approach of variational system identification, from which the full set of MDP components -- reward, transition, and policy -- can be recovered using analytic expressions. We demonstrate the effectiveness of FP-IRL through experiments on synthetic benchmarks and a modified version of the Mountain Car problem. Our results show that FP-IRL achieves accurate recovery of agent incentives while preserving computational efficiency and physical interpretability.
- Abstract(参考訳): 逆強化学習(IRL)は、マルコフ決定過程(MDP)内で観測された軌道から未知の報酬関数を推定することにより、エージェントの行動を促進するインセンティブ構造を明らかにするための強力なパラダイムである。
しかし、既存のIRL法の多くは、所定のあるいは推定された \textit{a priori} のいずれかの遷移関数へのアクセスを必要としており、基礎となる力学が未知、観測不可能、あるいは容易にサンプリングできない場合、重大な問題を引き起こす。
本稿では,Fokker-Planck(FP)動的システムに適した物理制約付きIRLフレームワークであるFokker-Planck逆強化学習(FP-IRL)を提案する。
FP-IRLは、サンプルトランジションへのアクセスを必要とせず、報酬関数と遷移関数の両方を軌道データから直接推論する。
提案手法は, MDP と FP 方程式の近似等価性を利用して, MDP の報酬最大化と FP の自由エネルギー最小化を結びつける。
この接続は、変動システム同定の推論アプローチを用いてポテンシャル関数の推論を可能にし、そこから、報酬、遷移、ポリシーの完全なセットを解析式を用いて復元することができる。
合成ベンチマークによるFP-IRLの有効性とマウンテンカー問題の修正版について述べる。
その結果、FP-IRLは、計算効率と物理的解釈可能性を維持しながら、エージェントインセンティブの正確な回復を実現することがわかった。
関連論文リスト
- Quasi-potential and drift decomposition in stochastic systems by sparse identification [0.0]
準ポテンシャルはシステムにおいて重要な概念であり、そのようなシステムの力学の長期的挙動を考慮に入れている。
本稿では,準ポテンシャルを決定するために,スパース学習手法とアクション最小化手法を組み合わせる。
提案手法を2次元および3次元システムで実装し,様々なタイプの潜在的景観とアトラクタを網羅する。
論文 参考訳(メタデータ) (2024-09-10T22:02:15Z) - Sparse identification of quasipotentials via a combined data-driven method [4.599618895656792]
我々は、ニューラルネットワークとスパース回帰アルゴリズムという2つのデータ駆動手法を組み合わせて機械学習を活用し、擬ポテンシャル関数の記号表現を得る。
提案手法は, 未知の正準ポテンシャルモデルと, ナノメカニカル共振器のダイナミックスに対して, 擬似準ポテンシャル方程式を求めるものである。
論文 参考訳(メタデータ) (2024-07-06T11:27:52Z) - DeltaPhi: Learning Physical Trajectory Residual for PDE Solving [54.13671100638092]
我々は,物理軌道残差学習(DeltaPhi)を提案し,定式化する。
既存のニューラル演算子ネットワークに基づく残差演算子マッピングのサロゲートモデルについて学習する。
直接学習と比較して,PDEの解法には物理残差学習が望ましいと結論づける。
論文 参考訳(メタデータ) (2024-06-14T07:45:07Z) - A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Variational Sampling of Temporal Trajectories [39.22854981703244]
遷移関数 $f$ を関数空間の要素として明示的にパラメータ化することにより、軌道の分布を学習する機構を導入する。
我々のフレームワークは、新しい軌道の効率的な合成を可能にすると同時に、推論に便利なツールを直接提供します。
論文 参考訳(メタデータ) (2024-03-18T02:12:12Z) - Physics-Informed Solution of The Stationary Fokker-Plank Equation for a
Class of Nonlinear Dynamical Systems: An Evaluation Study [0.0]
Fokker-Planck(FP)方程式の正確な解析解は、力学系の限られた部分集合に対してのみ利用できる。
その可能性を評価するために、FP方程式を解くために、データフリーで物理インフォームドニューラルネットワーク(PINN)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-25T13:17:34Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Self-Consistency of the Fokker-Planck Equation [117.17004717792344]
フォッカー・プランク方程式は、伊藤過程の密度進化を支配している。
地絡速度場は固定点方程式の解であることを示すことができる。
本稿では,この概念を利用して仮説速度場のポテンシャル関数を設計する。
論文 参考訳(メタデータ) (2022-06-02T03:44:23Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。