論文の概要: FM-IRL: Flow-Matching for Reward Modeling and Policy Regularization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.09222v2
- Date: Mon, 13 Oct 2025 03:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 13:29:55.717022
- Title: FM-IRL: Flow-Matching for Reward Modeling and Policy Regularization in Reinforcement Learning
- Title(参考訳): FM-IRL:強化学習における逆モデリングとポリシー規則化のためのフローマッチング
- Authors: Zhenglin Wan, Jingxuan Wu, Xingrui Yu, Chubin Zhang, Mingcong Lei, Bo An, Ivor Tsang,
- Abstract要約: Flow Matching (FM) は、複雑な分布をモデル化する際、顕著な能力を示している。
FMベースの政策は、本質的に環境相互作用と探索の欠如によって制限されている。
- 参考スコア(独自算出の注目度): 14.766170173284491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow Matching (FM) has shown remarkable ability in modeling complex distributions and achieves strong performance in offline imitation learning for cloning expert behaviors. However, despite its behavioral cloning expressiveness, FM-based policies are inherently limited by their lack of environmental interaction and exploration. This leads to poor generalization in unseen scenarios beyond the expert demonstrations, underscoring the necessity of online interaction with environment. Unfortunately, optimizing FM policies via online interaction is challenging and inefficient due to instability in gradient computation and high inference costs. To address these issues, we propose to let a student policy with simple MLP structure explore the environment and be online updated via RL algorithm with a reward model. This reward model is associated with a teacher FM model, containing rich information of expert data distribution. Furthermore, the same teacher FM model is utilized to regularize the student policy's behavior to stabilize policy learning. Due to the student's simple architecture, we avoid the gradient instability of FM policies and enable efficient online exploration, while still leveraging the expressiveness of the teacher FM model. Extensive experiments show that our approach significantly enhances learning efficiency, generalization, and robustness, especially when learning from suboptimal expert data.
- Abstract(参考訳): Flow Matching (FM)は複雑な分布をモデル化し、専門家の行動のクローン化のためのオフライン模倣学習において強力な性能を発揮する。
しかし、その行動的クローン表現性にもかかわらず、FMベースの政策は本質的に環境相互作用や探索の欠如によって制限されている。
このことは、専門家によるデモンストレーションを超えて、目に見えないシナリオにおいて、環境とのオンラインインタラクションの必要性を浮き彫りにしている。
残念ながら、勾配計算の不安定性と高い推論コストのため、オンラインインタラクションによるFMポリシーの最適化は困難で非効率である。
これらの問題に対処するため、簡単なMLP構造を持つ学生ポリシーを環境を探索し、報酬モデルを用いたRLアルゴリズムを用いてオンライン更新することを提案する。
この報酬モデルは、専門家データ分布の豊富な情報を含む教師FMモデルと関連付けられている。
さらに、同じ教師FMモデルを用いて、学生の政策行動の規則化を行い、政策学習を安定化させる。
学生のシンプルなアーキテクチャのため、教師FMモデルの表現性を活用しつつ、FMポリシーの勾配不安定を回避し、効率的なオンライン探索を可能にする。
大規模実験により,本手法は学習効率,一般化,堅牢性,特に準最適専門家データから学習する場合に顕著に向上することが示された。
関連論文リスト
- SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for
Dynamic Control [1.8275108630751844]
本稿では,支配法則が(一部)知られている環境の物理の先行知識を活用することを提案する。
環境の事前情報を取り入れることで、学習したモデルの品質を顕著に改善することができる。
論文 参考訳(メタデータ) (2021-07-31T02:19:36Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。