論文の概要: Path-Coupled Bellman Flows for Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.08253v1
- Date: Thu, 07 May 2026 19:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.50285
- Title: Path-Coupled Bellman Flows for Distributional Reinforcement Learning
- Title(参考訳): 分散強化学習のための経路結合ベルマンフロー
- Authors: Boyang Xu, Qing Zou, Siqin Yang, Hao Yan,
- Abstract要約: Path-Coupled Bellman Flows (PCBF) はフローマッチングを用いて戻り分布を学習する。
PCBFは電流と後継リターンを結合し、共有ベースノイズを流れる。
解析的抽出可能なMPP, OGBench, D4RLの実験では, 分布密度とトレーニング安定性が向上した。
- 参考スコア(独自算出の注目度): 6.000836623151053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributional reinforcement learning (DRL) models the full return distribution, but existing finite-support or quantile-based methods rely on projections, while recent flow-based approaches can suffer from \emph{boundary mismatch} at the flow source or from \emph{high-variance} bootstrapping when current and successor noises are independent. We propose Path-Coupled Bellman Flows (PCBF), a continuous-time DRL method that learns return distributions with flow matching using \textbf{source-consistent Bellman-coupled paths}: the current path starts from the required base prior at $t{=}0$, reaches the Bellman target at $t{=}1$, and maintains a pathwise affine relation to the successor flow at intermediate times (without requiring time-$t$ marginals to satisfy a distributional Bellman fixed point for all $t$). PCBF couples current and successor return flows through shared base noise and uses a $λ$-parameterized control-variate target: $λ{=}0$ recovers an unbiased sample Bellman target, while $λ{>}0$ trades controlled bias for variance reduction. Experiments on analytically tractable MRPs, OGBench, and D4RL show improved distributional fidelity and training stability, and competitive offline RL performance.
- Abstract(参考訳): 分布強化学習(DRL)は、完全な回帰分布をモデル化するが、既存の有限支持法や量子ベース法は射影に依存するが、近年のフローベース手法は、流れ源における \emph{boundary mismatch} や、電流と後続ノイズが独立なときに \emph{high-variance} ブートストラッピングに悩まされることがある。
そこで我々は,所要のベースから$t{=}0$で開始し,$t{=}1$でベルマンターゲットに到達し,中間時間で後続フローと経路的にアフィン関係を保ちながら(すべての$t$に対して分布のベルマン固定点を満たすために,t$を必要とせずに),フローマッチングを用いて戻り分布を学習する連続時間DRL手法であるPath-Coupled Bellman Flows (PCBF)を提案する。
PCBF は電流と後継リターンを共振ベースノイズに流し、$λ$-パラメータ化された制御変数のターゲットを使用する:$λ{=}0$ は非バイアスのサンプルベルマンターゲットを回収し、$λ{>}0$ は分散還元のバイアスを制御する。
解析的抽出可能なMPP, OGBench, D4RLの実験では, 分布の忠実度とトレーニング安定性が向上し, 競合するオフラインRL性能が向上した。
関連論文リスト
- Quantile-Coupled Flow Matching for Distributional Reinforcement Learning [14.19561152578512]
条件付きフローマッチング (CFM) は連続したマルチモーダルリターン分布のモデル化に注目されている。
FlowIQNは、各ミニバッチ内のソースとベルマンターゲットサンプルをソートして、モノトン最適輸送結合を近似する。
本稿では,フローIQNがワッサーシュタイン配向射影保証を明示した最初のフローマッチング分布批判であることを示す。
論文 参考訳(メタデータ) (2026-05-08T21:49:37Z) - Riemannian MeanFlow for One-Step Generation on Manifolds [54.09734511705173]
フローマッチングは、生成モデルのシミュレーション不要なトレーニングを可能にする。
平均フローは、位置依存接空間に速度が存在する多様体値生成に拡張することができる。
球面, トーリ, SO(3)における実験は, 品質・効率のトレードオフを改善し, サンプリングコストを大幅に削減して, 競争力のある一段階サンプリングを実証した。
論文 参考訳(メタデータ) (2026-03-11T12:41:46Z) - SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Reverse Flow Matching: A Unified Framework for Online Reinforcement Learning with Diffusion and Flow Policies [4.249024052507976]
本稿では, 直接的対象サンプルを使わずに, 拡散・流動モデルの訓練問題に厳密に対処する, 逆流マッチング (RFM) の統一フレームワークを提案する。
逆推論の観点を採用することで、中間雑音サンプルが与えられた後部平均推定問題としてトレーニング対象を定式化する。
このクラスでは,既存の雑音予測法と勾配探索法が2つの具体例であることを示す。
論文 参考訳(メタデータ) (2026-01-13T01:58:24Z) - Value Flows [90.1510269525399]
本稿では, フローベースモデルを用いて, 将来のリターン分布を推定する。
学習したフローモデルに基づいて、新しいフロー微分ODEを用いて、異なる状態の戻り不確かさを推定する。
ステートベース37ドル、イメージベースのベンチマークタスク25ドルの実験では、バリューフローが平均的な成功率で1.3倍の改善を達成している。
論文 参考訳(メタデータ) (2025-10-09T00:57:40Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning [1.5734309088976395]
本研究ではベルマン方程式の反復探索によるベルマン近似誤差の分布について検討した。
本稿では,ベルマン誤差の正規分布を仮定する平均二乗誤差(MSELoss)の代替として,ロジスティック最大度関数(LLoss)の利用を提案する。
論文 参考訳(メタデータ) (2023-07-05T15:00:29Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布推定が消失することを示し,推定分布が急速に平均に崩壊することを実証的に観察した。
我々は,$L$の学習効率に感化され,効率のよい学習方法として,返却分布の期待値と量子値を共同で学習することを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Bootstrap Your Flow [4.374837991804085]
複雑なターゲット分布に対する正確な近似を生成するため,フローベーストレーニング手法であるFAB(Flow AIS Bootstrap)を開発した。
我々は,従来のフローベース手法が失敗する問題において,FABを用いてボルツマン分布を含む複雑な対象分布の正確な近似を導出できることを実証した。
論文 参考訳(メタデータ) (2021-11-22T20:11:47Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。