論文の概要: FP-IRL: Fokker-Planck-based Inverse Reinforcement Learning -- A
Physics-Constrained Approach to Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2306.10407v1
- Date: Sat, 17 Jun 2023 18:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 20:52:57.600972
- Title: FP-IRL: Fokker-Planck-based Inverse Reinforcement Learning -- A
Physics-Constrained Approach to Markov Decision Processes
- Title(参考訳): FP-IRL:Fokker-Planck-based Inverse Reinforcement Learning -- マルコフ決定過程に対する物理制約付きアプローチ
- Authors: Chengyang Huang and Siddhartha Srivastava and Xun Huan and Krishna
Garikipati
- Abstract要約: 逆強化学習(英: Inverse Reinforcement Learning、IRL)は、自律エージェントの行動の基礎となる根拠を明らかにする技術である。
IRLは、観測されたエージェント軌道からマルコフ決定過程(MDP)の未知の報酬関数を推定しようとする。
我々は、観測軌道のみを用いて遷移関数と報酬関数を同時に推論できる新しいIRLアルゴリズムFP-IRLを作成する。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Inverse Reinforcement Learning (IRL) is a compelling technique for revealing
the rationale underlying the behavior of autonomous agents. IRL seeks to
estimate the unknown reward function of a Markov decision process (MDP) from
observed agent trajectories. However, IRL needs a transition function, and most
algorithms assume it is known or can be estimated in advance from data. It
therefore becomes even more challenging when such transition dynamics is not
known a-priori, since it enters the estimation of the policy in addition to
determining the system's evolution. When the dynamics of these agents in the
state-action space is described by stochastic differential equations (SDE) in
It^{o} calculus, these transitions can be inferred from the mean-field theory
described by the Fokker-Planck (FP) equation. We conjecture there exists an
isomorphism between the time-discrete FP and MDP that extends beyond the
minimization of free energy (in FP) and maximization of the reward (in MDP). We
identify specific manifestations of this isomorphism and use them to create a
novel physics-aware IRL algorithm, FP-IRL, which can simultaneously infer the
transition and reward functions using only observed trajectories. We employ
variational system identification to infer the potential function in FP, which
consequently allows the evaluation of reward, transition, and policy by
leveraging the conjecture. We demonstrate the effectiveness of FP-IRL by
applying it to a synthetic benchmark and a biological problem of cancer cell
dynamics, where the transition function is inaccessible.
- Abstract(参考訳): 逆強化学習(Inverse Reinforcement Learning、IRL)は、自律エージェントの行動の基礎となる根拠を明らかにするための説得力のある手法である。
IRLは、観測されたエージェント軌道からマルコフ決定過程(MDP)の未知の報酬関数を推定しようとする。
しかし、irlには遷移関数が必要であり、ほとんどのアルゴリズムはそれが知られているか、データから事前に推定できると仮定している。
したがって、システムの進化を決定することに加えて、ポリシーの推定に入るため、そのような遷移ダイナミクスがaプライオリ(a-priori)として知られていない場合、さらに困難になる。
状態-作用空間におけるこれらのエージェントのダイナミクスが It^{o} の確率微分方程式 (SDE) によって記述されるとき、これらの遷移はフォッカー・プランク方程式 (Fokker-Planck) によって記述された平均場理論から推測できる。
我々は、自由エネルギーの最小化(FP)と報酬の最大化(MDP)を超えて広がる時間離散FPとMDPの間に同型が存在すると推測する。
我々は、このアイソモルフィズムの特定の発現を特定し、それを用いて、観測された軌道のみを用いて遷移関数と報酬関数を同時に推測できる新しい物理対応IRLアルゴリズムFP-IRLを作成する。
我々は、FPのポテンシャル関数を推測するために変分システム同定を用い、その結果、予想を利用して報酬、遷移、ポリシーの評価を可能にする。
そこで我々は,FP-IRLを合成ベンチマークに適用し,がん細胞動態の生物学的問題に適用することにより,FP-IRLの有効性を示す。
関連論文リスト
- Quasi-potential and drift decomposition in stochastic systems by sparse identification [0.0]
準ポテンシャルはシステムにおいて重要な概念であり、そのようなシステムの力学の長期的挙動を考慮に入れている。
本稿では,準ポテンシャルを決定するために,スパース学習手法とアクション最小化手法を組み合わせる。
提案手法を2次元および3次元システムで実装し,様々なタイプの潜在的景観とアトラクタを網羅する。
論文 参考訳(メタデータ) (2024-09-10T22:02:15Z) - Sparse identification of quasipotentials via a combined data-driven method [4.599618895656792]
我々は、ニューラルネットワークとスパース回帰アルゴリズムという2つのデータ駆動手法を組み合わせて機械学習を活用し、擬ポテンシャル関数の記号表現を得る。
提案手法は, 未知の正準ポテンシャルモデルと, ナノメカニカル共振器のダイナミックスに対して, 擬似準ポテンシャル方程式を求めるものである。
論文 参考訳(メタデータ) (2024-07-06T11:27:52Z) - DeltaPhi: Learning Physical Trajectory Residual for PDE Solving [54.13671100638092]
我々は,物理軌道残差学習(DeltaPhi)を提案し,定式化する。
既存のニューラル演算子ネットワークに基づく残差演算子マッピングのサロゲートモデルについて学習する。
直接学習と比較して,PDEの解法には物理残差学習が望ましいと結論づける。
論文 参考訳(メタデータ) (2024-06-14T07:45:07Z) - A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Variational Sampling of Temporal Trajectories [39.22854981703244]
遷移関数 $f$ を関数空間の要素として明示的にパラメータ化することにより、軌道の分布を学習する機構を導入する。
我々のフレームワークは、新しい軌道の効率的な合成を可能にすると同時に、推論に便利なツールを直接提供します。
論文 参考訳(メタデータ) (2024-03-18T02:12:12Z) - Physics-Informed Solution of The Stationary Fokker-Plank Equation for a
Class of Nonlinear Dynamical Systems: An Evaluation Study [0.0]
Fokker-Planck(FP)方程式の正確な解析解は、力学系の限られた部分集合に対してのみ利用できる。
その可能性を評価するために、FP方程式を解くために、データフリーで物理インフォームドニューラルネットワーク(PINN)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-25T13:17:34Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Self-Consistency of the Fokker-Planck Equation [117.17004717792344]
フォッカー・プランク方程式は、伊藤過程の密度進化を支配している。
地絡速度場は固定点方程式の解であることを示すことができる。
本稿では,この概念を利用して仮説速度場のポテンシャル関数を設計する。
論文 参考訳(メタデータ) (2022-06-02T03:44:23Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。