論文の概要: Quantile-Coupled Flow Matching for Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.08515v1
- Date: Fri, 08 May 2026 21:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.700646
- Title: Quantile-Coupled Flow Matching for Distributional Reinforcement Learning
- Title(参考訳): 分散強化学習のための量子結合型フローマッチング
- Authors: Michael Groom, Victor-Alexandru Darvariu, Lars Kunze, James Wilson, Nick Hawes,
- Abstract要約: 条件付きフローマッチング (CFM) は連続したマルチモーダルリターン分布のモデル化に注目されている。
FlowIQNは、各ミニバッチ内のソースとベルマンターゲットサンプルをソートして、モノトン最適輸送結合を近似する。
本稿では,フローIQNがワッサーシュタイン配向射影保証を明示した最初のフローマッチング分布批判であることを示す。
- 参考スコア(独自算出の注目度): 14.19561152578512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike standard expected-return Reinforcement Learning (RL), Distributional RL (DRL) models the full return distribution, making it better-suited for uncertainty-aware and risk-sensitive decision-making. Conditional Flow Matching (CFM) critics have recently attracted attention for modelling continuous, multi-modal return distributions. Despite this interest, there remains a substantial metric mismatch: DRL theory relies on the distributional Bellman operator being contractive in the $p$-Wasserstein distance, yet existing CFM critics are trained with arbitrary source-target couplings, so their flow-matching losses are not Wasserstein-aligned surrogates for matching Bellman target return distributions. In this work, we address this mismatch by proposing FlowIQN, a CFM critic that sorts source and Bellman target samples within each mini-batch to approximate the monotone optimal transport coupling, replacing arbitrary pairings with quantile-aligned flow paths. We prove that the loss of our quantile-coupled CFM critic yields a Wasserstein-aligned approximate projection compatible with the foundations of DRL. To our knowledge, FlowIQN is the first flow-matching distributional critic with an explicit Wasserstein-aligned projection guarantee. We further extend FlowIQN with shortcut models for efficient inference. Empirical results show that FlowIQN improves Wasserstein return-distribution accuracy over other CFM critics. It also yields competitive performance on offline RL benchmarks across multiple policy extraction methods, providing a theoretically grounded CFM critic that is readily compatible with DRL pipelines. Code: https://github.com/ori-goals/flowIQN.
- Abstract(参考訳): 標準的な予測回帰強化学習(RL)とは異なり、分散RL(DRL)は完全なリターン分布をモデル化し、不確実性を認識し、リスクに敏感な意思決定に適している。
条件付きフローマッチング(CFM)の批判者は近年,連続したマルチモーダルリターン分布のモデル化に注目している。
DRL理論は、ベルマン作用素が$p$-ワッサーシュタイン距離で縮約可能であるが、既存のCFM批評家は任意のソース-ターゲット結合で訓練されているため、フローマッチング損失は、ベルマンの目標リターン分布に一致するようなワッサーシュタイン配向サロゲートではない。
本研究では,各ミニバッチ内でソースとベルマンターゲットのサンプルをソートしてモノトーン最適輸送結合を近似し,任意のペアリングを量子的に整列したフローパスに置き換える,CFM批評家のFlowIQNを提案する。
我々は、量子結合型CFM批判の喪失が、DRLの基礎と相反するワッサーシュタイン近似射影をもたらすことを証明した。
我々の知る限り、FlowIQNは、明示的なワッサーシュタイン整列射影保証を備えた最初のフローマッチング分布批評家である。
さらに、効率的な推論のために、ショートカットモデルでFlowIQNを拡張します。
実験の結果、FlowIQNは他のCFM評論家よりもWassersteinの戻り分布精度を向上することが示された。
また、オフラインのRLベンチマークにおいて、複数のポリシー抽出手法で競合性能を得ることができ、理論上はDRLパイプラインと容易に互換性のあるCFM批判を提供する。
コード:https://github.com/ori-goals/flowIQN。
関連論文リスト
- Path-Coupled Bellman Flows for Distributional Reinforcement Learning [6.000836623151053]
Path-Coupled Bellman Flows (PCBF) はフローマッチングを用いて戻り分布を学習する。
PCBFは電流と後継リターンを結合し、共有ベースノイズを流れる。
解析的抽出可能なMPP, OGBench, D4RLの実験では, 分布密度とトレーニング安定性が向上した。
論文 参考訳(メタデータ) (2026-05-07T19:05:01Z) - PARM: Pipeline-Adapted Reward Model [60.769414637325326]
リワードモデル(RM)は、大規模言語モデル(LLM)を人間の好みと整合させることの中心であり、高度な復号化戦略を推進している。
これまでの作業はシングルステップ生成に重点を置いていたが、現実のアプリケーションはますますマルチステージパイプラインを採用するようになっている。
我々は、最適化のためのコード生成を通じてこれを調査し、報酬モデルを定式化とソリューション段階の両方に統合するパイプラインを構築する。
論文 参考訳(メタデータ) (2026-04-20T14:29:08Z) - Distributional Reinforcement Learning with Diffusion Bridge Critics [57.70134665595571]
拡散橋批判(DBC)を用いた分散強化学習手法を提案する。
DBCはQ値の逆累積分布関数(CDF)を直接モデル化する。
我々はDBCにおける離散化誤差に対処する解析積分式を導出する。
論文 参考訳(メタデータ) (2026-02-05T15:40:14Z) - Reverse Flow Matching: A Unified Framework for Online Reinforcement Learning with Diffusion and Flow Policies [4.249024052507976]
本稿では, 直接的対象サンプルを使わずに, 拡散・流動モデルの訓練問題に厳密に対処する, 逆流マッチング (RFM) の統一フレームワークを提案する。
逆推論の観点を採用することで、中間雑音サンプルが与えられた後部平均推定問題としてトレーニング対象を定式化する。
このクラスでは,既存の雑音予測法と勾配探索法が2つの具体例であることを示す。
論文 参考訳(メタデータ) (2026-01-13T01:58:24Z) - Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity [13.211627219720796]
強化学習(Reinforcement Learning, RL)は、推論に関わる課題を解決するためにLLMをチューニングするためのデファクトスタンダードとなっている。
我々は、RLが暗黙的に「モード探索」あるいは「ゼロ強制」逆KLを目標分布に最適化し、モデルがターゲットの特定の高確率領域に質量を集中させることを論じる。
そこで本研究では,まず,正解の相対確率を無視しながら,不正確な解をフィルタリングして得られる明示的対象分布から始める。
論文 参考訳(メタデータ) (2025-12-05T18:56:40Z) - Reweighted Flow Matching via Unbalanced OT for Label-free Long-tailed Generation [9.488297561764211]
長距離分布に対する不均衡輸送再加重フローマッチング(UOT-RFM)を提案する。
本手法は, 逆重み付けの原則により, 多数偏りを緩和する。
我々のモデルは、長い尾のベンチマークで既存のフローマッチングベースラインを上回ります。
論文 参考訳(メタデータ) (2025-09-30T03:19:52Z) - Unleashing Flow Policies with Distributional Critics [15.149475517073258]
本稿では、状態-動作の戻りの完全な分布を学習する新しい批判的アーキテクチャであるDis Distributional Flow Critic (DFC)を紹介する。
DFCは、より安定的で情報的な学習信号を提供する、豊かで分散的なベルマンターゲットを備えた表現力のあるフローベースのポリシーを提供する。
論文 参考訳(メタデータ) (2025-09-27T03:51:06Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - On the Wasserstein Convergence and Straightness of Rectified Flow [54.580605276017096]
Rectified Flow (RF) は、ノイズからデータへの直流軌跡の学習を目的とした生成モデルである。
RFのサンプリング分布とターゲット分布とのワッサーシュタイン距離に関する理論的解析を行った。
本稿では,従来の経験的知見と一致した1-RFの特異性と直線性を保証する一般的な条件について述べる。
論文 参考訳(メタデータ) (2024-10-19T02:36:11Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。