論文の概要: Flow Actor-Critic for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.18015v1
- Date: Fri, 20 Feb 2026 06:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.245567
- Title: Flow Actor-Critic for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのフローアクタ・クリティカル
- Authors: Jongseong Chae, Jongeui Park, Yongjae Shin, Gyeongmin Kim, Seungyul Han, Youngchul Sung,
- Abstract要約: 本稿では,近年のフローポリシーに基づいて,オフラインRLのためのアクタ批判手法であるFlow Actor-Criticを提案する。
D4RLや最近のOGBenchベンチマークを含むオフラインRLのテストデータセットに対して、最先端の新たなパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 20.074534038481666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dataset distributions in offline reinforcement learning (RL) often exhibit complex and multi-modal distributions, necessitating expressive policies to capture such distributions beyond widely-used Gaussian policies. To handle such complex and multi-modal datasets, in this paper, we propose Flow Actor-Critic, a new actor-critic method for offline RL, based on recent flow policies. The proposed method not only uses the flow model for actor as in previous flow policies but also exploits the expressive flow model for conservative critic acquisition to prevent Q-value explosion in out-of-data regions. To this end, we propose a new form of critic regularizer based on the flow behavior proxy model obtained as a byproduct of flow-based actor design. Leveraging the flow model in this joint way, we achieve new state-of-the-art performance for test datasets of offline RL including the D4RL and recent OGBench benchmarks.
- Abstract(参考訳): オフライン強化学習(RL)におけるデータセットの分布は、しばしば複雑かつ多モードな分布を示し、広く使われているガウス政策を超えて、そのような分布を捉えるための表現的ポリシーを必要とする。
本稿では,このような複雑なマルチモーダルデータセットを扱うために,近年のフローポリシーに基づいて,オフラインRLのための新しいアクタ批判手法であるFlow Actor-Criticを提案する。
提案手法は,従来のフローポリシのようにアクターのフローモデルを使用するだけでなく,データ外領域におけるQ値の爆発を防止するために,保守的批評家獲得のための表現的フローモデルを利用する。
そこで本研究では,フローベースアクタ設計の副産物として得られたフロー行動プロキシモデルに基づいて,新たな批判正規化手法を提案する。
この共同方法でフローモデルを活用することで、D4RLや最近のOGBenchベンチマークを含むオフラインRLのテストデータセットに対して、最先端のパフォーマンスを新たに達成する。
関連論文リスト
- Causal Flow Q-Learning for Robust Offline Reinforcement Learning [53.63254824501714]
構築された実演から表現型フローマッチングポリシーを学習する実践的実装を提案する。
提案手法は,最先端のオフラインRL法よりも120%の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-02T21:50:52Z) - Scalable Offline Model-Based RL with Action Chunks [60.80151356018376]
モデルに基づく強化学習が、オフラインRLにおける複雑で長期のタスクに対処するためのスケーラブルなレシピを提供するかどうかを検討する。
我々はこのレシピを textbfModel-based RL with Action Chunks (MAC) と呼ぶ。
MAC はオフラインモデルベース RL アルゴリズムの中で,特に長期的タスクにおいて,最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-12-08T23:26:29Z) - Unleashing Flow Policies with Distributional Critics [15.149475517073258]
本稿では、状態-動作の戻りの完全な分布を学習する新しい批判的アーキテクチャであるDis Distributional Flow Critic (DFC)を紹介する。
DFCは、より安定的で情報的な学習信号を提供する、豊かで分散的なベルマンターゲットを備えた表現力のあるフローベースのポリシーを提供する。
論文 参考訳(メタデータ) (2025-09-27T03:51:06Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。