論文の概要: Controllable Flow Matching for Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.06816v1
- Date: Mon, 10 Nov 2025 08:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.14679
- Title: Controllable Flow Matching for Online Reinforcement Learning
- Title(参考訳): オンライン強化学習のための制御可能なフローマッチング
- Authors: Bin Wang, Boxiang Tao, Haifeng Jing, Hongbo Dou, Zijian Wang,
- Abstract要約: 条件付きフローマッチング(CFM)を用いた軌道レベルの合成法であるCtrlFlowを提案する。
本手法は,非線形制御性グラミアン行列が支配する制御エネルギーを最小化することにより,最適軌道サンプリングを実現する。
オンライン設定では、CtrlFlowは、動的モデルよりも一般的な MuJoCo ベンチマークタスクのパフォーマンスが優れていることを実証している。
- 参考スコア(独自算出の注目度): 5.944099401274571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) typically relies on modeling environment dynamics for data efficiency. However, due to the accumulation of model errors over long-horizon rollouts, such methods often face challenges in maintaining modeling stability. To address this, we propose CtrlFlow, a trajectory-level synthetic method using conditional flow matching (CFM), which directly modeling the distribution of trajectories from initial states to high-return terminal states without explicitly modeling the environment transition function. Our method ensures optimal trajectory sampling by minimizing the control energy governed by the non-linear Controllability Gramian Matrix, while the generated diverse trajectory data significantly enhances the robustness and cross-task generalization of policy learning. In online settings, CtrlFlow demonstrates the better performance on common MuJoCo benchmark tasks than dynamics models and achieves superior sample efficiency compared to standard MBRL methods.
- Abstract(参考訳): モデルベース強化学習(MBRL)は通常、データ効率のモデリング環境のダイナミクスに依存している。
しかし, 長期ロールアウトにおけるモデル誤差の蓄積により, モデル安定性の維持が課題となることが多い。
そこで本研究では,条件付きフローマッチング(CFM)を用いたトラジェクトリレベルの合成手法であるCtrlFlowを提案し,環境遷移関数を明示的にモデル化することなく,初期状態から高戻り状態へのトラジェクトリの分布を直接モデル化する。
本手法は,非線形制御性グラミアン行列が支配する制御エネルギーを最小化することにより最適軌道サンプリングを実現するとともに,生成した多様な軌道データによりポリシー学習の堅牢性とクロスタスクの一般化が著しく向上する。
オンライン設定では、CtrlFlowは、一般的なMuJoCoベンチマークタスクにおいて、動的モデルよりも優れたパフォーマンスを示し、標準のMBRLメソッドよりも優れたサンプル効率を実現する。
関連論文リスト
- DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions [6.723690093335988]
本研究では,現在の状態,行動,帰路を条件に,将来の状態逆トラジェクトリを生成する拡散型世界モデルを提案する。
我々は、TD3BCやIQLのような保守的なオフラインRLアルゴリズムは、これらの拡張軌道のトレーニングから大きな恩恵を受けることを示す。
論文 参考訳(メタデータ) (2025-09-23T20:06:26Z) - Sample-Efficient Reinforcement Learning of Koopman eNMPC [42.72938925647165]
強化学習は、データ駆動(経済)非線形モデル予測コントローラ((e)NMPC)を、特定の制御タスクにおける最適な性能に調整するために使用することができる。
モデルに基づくRLアルゴリズムと、Koopman (e)NMPCを自動微分可能なポリシーに変換する方法を組み合わせる。
論文 参考訳(メタデータ) (2025-03-24T15:35:16Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Improving and generalizing flow-based generative models with minibatch
optimal transport [90.01613198337833]
連続正規化フロー(CNF)のための一般条件流整合(CFM)技術を導入する。
CFMは、拡散モデルのフローをトレーニングするために使用されるような安定した回帰目標を特徴としているが、決定論的フローモデルの効率的な推論を好んでいる。
我々の目的の変種は最適輸送CFM (OT-CFM) であり、訓練がより安定し、より高速な推論をもたらすより単純なフローを生成する。
論文 参考訳(メタデータ) (2023-02-01T14:47:17Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。