論文の概要: Unleashing Flow Policies with Distributional Critics
- arxiv url: http://arxiv.org/abs/2509.23087v1
- Date: Sat, 27 Sep 2025 03:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.026293
- Title: Unleashing Flow Policies with Distributional Critics
- Title(参考訳): 分散的批判を伴う解き放たれたフローポリシー
- Authors: Deshu Chen, Yuchen Liu, Zhijian Zhou, Chao Qu, Yuan Qi,
- Abstract要約: 本稿では、状態-動作の戻りの完全な分布を学習する新しい批判的アーキテクチャであるDis Distributional Flow Critic (DFC)を紹介する。
DFCは、より安定的で情報的な学習信号を提供する、豊かで分散的なベルマンターゲットを備えた表現力のあるフローベースのポリシーを提供する。
- 参考スコア(独自算出の注目度): 15.149475517073258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow-based policies have recently emerged as a powerful tool in offline and offline-to-online reinforcement learning, capable of modeling the complex, multimodal behaviors found in pre-collected datasets. However, the full potential of these expressive actors is often bottlenecked by their critics, which typically learn a single, scalar estimate of the expected return. To address this limitation, we introduce the Distributional Flow Critic (DFC), a novel critic architecture that learns the complete state-action return distribution. Instead of regressing to a single value, DFC employs flow matching to model the distribution of return as a continuous, flexible transformation from a simple base distribution to the complex target distribution of returns. By doing so, DFC provides the expressive flow-based policy with a rich, distributional Bellman target, which offers a more stable and informative learning signal. Extensive experiments across D4RL and OGBench benchmarks demonstrate that our approach achieves strong performance, especially on tasks requiring multimodal action distributions, and excels in both offline and offline-to-online fine-tuning compared to existing methods.
- Abstract(参考訳): フローベースのポリシーは、最近オフラインとオフラインの強化学習において強力なツールとして登場し、事前に収集されたデータセットに見られる複雑なマルチモーダルな振る舞いをモデル化することができる。
しかしながら、これらの表現力のあるアクターの潜在能力は、一般的に期待されるリターンの1つのスカラーな見積もりを学ぶ批評家によってボトルネックにされることが多い。
この制限に対処するために、我々は、状態-動作の戻りの完全な分布を学習する新しい批判的アーキテクチャである分散フロー批判(DFC)を導入する。
単一の値に回帰するのではなく、DFCはフローマッチングを用いてリターンの分布を単純なベース分布から複雑なターゲット分布への連続的で柔軟な変換としてモデル化する。
これにより、DFCは、より安定的で情報的な学習信号を提供する、リッチで分散的なベルマンターゲットで表現力のあるフローベースのポリシーを提供する。
D4RLとOGBenchベンチマークによる大規模な実験により,本手法は特にマルチモーダルな動作分布を必要とするタスクにおいて高い性能を達成し,既存の手法と比較してオフラインとオフラインの両方の微調整に優れることが示された。
関連論文リスト
- Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Streetwise Agents: Empowering Offline RL Policies to Outsmart Exogenous Stochastic Disturbances in RTC [21.20874303316171]
本稿では,配布外部分空間のリアルタイムな特徴付けを前提としたポリシーのデプロイ後シェーピングを提案する。
BWEおよび他の標準オフラインRLベンチマーク環境に対する実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2024-11-11T09:22:09Z) - Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning [1.7205106391379026]
近年の拡散政策における状態再構成特徴学習を取り入れた新しい手法を提案する。
本手法は,OOD状態による分散シフトを軽減するために,一般化可能な状態表現の学習を促進する。
論文 参考訳(メタデータ) (2023-07-10T17:34:23Z) - Integrating Local Real Data with Global Gradient Prototypes for
Classifier Re-Balancing in Federated Long-Tailed Learning [60.41501515192088]
フェデレートラーニング(FL)は、グローバルモデルを協調的にトレーニングする複数のクライアントを含む、人気のある分散ラーニングパラダイムになっています。
データサンプルは通常、現実世界の長い尾の分布に従っており、分散化された長い尾のデータのFLは、貧弱なグローバルモデルをもたらす。
本研究では、局所的な実データとグローバルな勾配のプロトタイプを統合し、局所的なバランスの取れたデータセットを形成する。
論文 参考訳(メタデータ) (2023-01-25T03:18:10Z) - Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文 参考訳(メタデータ) (2022-02-06T03:27:05Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。