論文の概要: Unleashing Flow Policies with Distributional Critics
- arxiv url: http://arxiv.org/abs/2509.23087v1
- Date: Sat, 27 Sep 2025 03:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.026293
- Title: Unleashing Flow Policies with Distributional Critics
- Title(参考訳): 分散的批判を伴う解き放たれたフローポリシー
- Authors: Deshu Chen, Yuchen Liu, Zhijian Zhou, Chao Qu, Yuan Qi,
- Abstract要約: 本稿では、状態-動作の戻りの完全な分布を学習する新しい批判的アーキテクチャであるDis Distributional Flow Critic (DFC)を紹介する。
DFCは、より安定的で情報的な学習信号を提供する、豊かで分散的なベルマンターゲットを備えた表現力のあるフローベースのポリシーを提供する。
- 参考スコア(独自算出の注目度): 15.149475517073258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow-based policies have recently emerged as a powerful tool in offline and offline-to-online reinforcement learning, capable of modeling the complex, multimodal behaviors found in pre-collected datasets. However, the full potential of these expressive actors is often bottlenecked by their critics, which typically learn a single, scalar estimate of the expected return. To address this limitation, we introduce the Distributional Flow Critic (DFC), a novel critic architecture that learns the complete state-action return distribution. Instead of regressing to a single value, DFC employs flow matching to model the distribution of return as a continuous, flexible transformation from a simple base distribution to the complex target distribution of returns. By doing so, DFC provides the expressive flow-based policy with a rich, distributional Bellman target, which offers a more stable and informative learning signal. Extensive experiments across D4RL and OGBench benchmarks demonstrate that our approach achieves strong performance, especially on tasks requiring multimodal action distributions, and excels in both offline and offline-to-online fine-tuning compared to existing methods.
- Abstract(参考訳): フローベースのポリシーは、最近オフラインとオフラインの強化学習において強力なツールとして登場し、事前に収集されたデータセットに見られる複雑なマルチモーダルな振る舞いをモデル化することができる。
しかしながら、これらの表現力のあるアクターの潜在能力は、一般的に期待されるリターンの1つのスカラーな見積もりを学ぶ批評家によってボトルネックにされることが多い。
この制限に対処するために、我々は、状態-動作の戻りの完全な分布を学習する新しい批判的アーキテクチャである分散フロー批判(DFC)を導入する。
単一の値に回帰するのではなく、DFCはフローマッチングを用いてリターンの分布を単純なベース分布から複雑なターゲット分布への連続的で柔軟な変換としてモデル化する。
これにより、DFCは、より安定的で情報的な学習信号を提供する、リッチで分散的なベルマンターゲットで表現力のあるフローベースのポリシーを提供する。
D4RLとOGBenchベンチマークによる大規模な実験により,本手法は特にマルチモーダルな動作分布を必要とするタスクにおいて高い性能を達成し,既存の手法と比較してオフラインとオフラインの両方の微調整に優れることが示された。
関連論文リスト
- Flow Actor-Critic for Offline Reinforcement Learning [20.074534038481666]
本稿では,近年のフローポリシーに基づいて,オフラインRLのためのアクタ批判手法であるFlow Actor-Criticを提案する。
D4RLや最近のOGBenchベンチマークを含むオフラインRLのテストデータセットに対して、最先端の新たなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-20T06:11:12Z) - DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。
近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。
DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T17:07:42Z) - Deep Leakage with Generative Flow Matching Denoiser [54.05993847488204]
再建プロセスに先立って生成フローマッチング(FM)を組み込んだ新しい深部リーク攻撃(DL)を導入する。
当社のアプローチは、ピクセルレベル、知覚的、特徴に基づく類似度測定において、最先端の攻撃よりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-21T14:51:01Z) - Reverse Flow Matching: A Unified Framework for Online Reinforcement Learning with Diffusion and Flow Policies [4.249024052507976]
本稿では, 直接的対象サンプルを使わずに, 拡散・流動モデルの訓練問題に厳密に対処する, 逆流マッチング (RFM) の統一フレームワークを提案する。
逆推論の観点を採用することで、中間雑音サンプルが与えられた後部平均推定問題としてトレーニング対象を定式化する。
このクラスでは,既存の雑音予測法と勾配探索法が2つの具体例であることを示す。
論文 参考訳(メタデータ) (2026-01-13T01:58:24Z) - Offline Meta-Reinforcement Learning with Flow-Based Task Inference and Adaptive Correction of Feature Overgeneralization [12.107082786676907]
オフラインメタ強化学習(OMRL)は、オフラインRLにおける多様なデータセットからの学習の強みと、メタRLの新しいタスクへの適応性を組み合わせる。
既存の研究では、$Q$ネットワークの一般化がオフラインRLにおける外挿誤差に影響を与えることが示されている。
特徴分布をモデル化し,不確かさを推定することでOODサンプルを同定するFLORAを提案する。
論文 参考訳(メタデータ) (2026-01-12T03:16:07Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Streetwise Agents: Empowering Offline RL Policies to Outsmart Exogenous Stochastic Disturbances in RTC [21.20874303316171]
本稿では,配布外部分空間のリアルタイムな特徴付けを前提としたポリシーのデプロイ後シェーピングを提案する。
BWEおよび他の標準オフラインRLベンチマーク環境に対する実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2024-11-11T09:22:09Z) - Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning [1.7205106391379026]
近年の拡散政策における状態再構成特徴学習を取り入れた新しい手法を提案する。
本手法は,OOD状態による分散シフトを軽減するために,一般化可能な状態表現の学習を促進する。
論文 参考訳(メタデータ) (2023-07-10T17:34:23Z) - Integrating Local Real Data with Global Gradient Prototypes for
Classifier Re-Balancing in Federated Long-Tailed Learning [60.41501515192088]
フェデレートラーニング(FL)は、グローバルモデルを協調的にトレーニングする複数のクライアントを含む、人気のある分散ラーニングパラダイムになっています。
データサンプルは通常、現実世界の長い尾の分布に従っており、分散化された長い尾のデータのFLは、貧弱なグローバルモデルをもたらす。
本研究では、局所的な実データとグローバルな勾配のプロトタイプを統合し、局所的なバランスの取れたデータセットを形成する。
論文 参考訳(メタデータ) (2023-01-25T03:18:10Z) - Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文 参考訳(メタデータ) (2022-02-06T03:27:05Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。