論文の概要: Value Flows
- arxiv url: http://arxiv.org/abs/2510.07650v1
- Date: Thu, 09 Oct 2025 00:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.795215
- Title: Value Flows
- Title(参考訳): 価値の流れ
- Authors: Perry Dong, Chongyi Zheng, Chelsea Finn, Dorsa Sadigh, Benjamin Eysenbach,
- Abstract要約: 本稿では, フローベースモデルを用いて, 将来のリターン分布を推定する。
学習したフローモデルに基づいて、新しいフロー微分ODEを用いて、異なる状態の戻り不確かさを推定する。
ステートベース37ドル、イメージベースのベンチマークタスク25ドルの実験では、バリューフローが平均的な成功率で1.3倍の改善を達成している。
- 参考スコア(独自算出の注目度): 90.1510269525399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While most reinforcement learning methods today flatten the distribution of future returns to a single scalar value, distributional RL methods exploit the return distribution to provide stronger learning signals and to enable applications in exploration and safe RL. While the predominant method for estimating the return distribution is by modeling it as a categorical distribution over discrete bins or estimating a finite number of quantiles, such approaches leave unanswered questions about the fine-grained structure of the return distribution and about how to distinguish states with high return uncertainty for decision-making. The key idea in this paper is to use modern, flexible flow-based models to estimate the full future return distributions and identify those states with high return variance. We do so by formulating a new flow-matching objective that generates probability density paths satisfying the distributional Bellman equation. Building upon the learned flow models, we estimate the return uncertainty of distinct states using a new flow derivative ODE. We additionally use this uncertainty information to prioritize learning a more accurate return estimation on certain transitions. We compare our method (Value Flows) with prior methods in the offline and online-to-online settings. Experiments on $37$ state-based and $25$ image-based benchmark tasks demonstrate that Value Flows achieves a $1.3\times$ improvement on average in success rates. Website: https://pd-perry.github.io/value-flows Code: https://github.com/chongyi-zheng/value-flows
- Abstract(参考訳): 現在、ほとんどの強化学習手法は、将来の分布を1つのスカラー値にフラットにするが、分布RL法は、戻り分布を利用してより強力な学習信号を提供し、探索と安全なRLの応用を可能にする。
回帰分布を推定する主要な方法は、離散ビン上のカテゴリー分布としてモデル化するか、あるいは有限個の量子化を推定することであるが、そのような手法は、回帰分布の微細な構造や、意思決定のための高い回帰不確実性のある状態の区別方法に関して、未解決の疑問を残している。
本稿のキーとなる考え方は、流動モデルを用いて、将来のリターン分布を推定し、高いリターン分散を持つ状態を特定することである。
我々は,分布ベルマン方程式を満たす確率密度経路を生成する新しいフローマッチング目的を定式化する。
学習したフローモデルに基づいて、新しいフロー微分ODEを用いて、異なる状態の戻り不確かさを推定する。
また、この不確実性情報を用いて、ある遷移におけるより正確な回帰推定を学習する。
本手法(バリューフロー)とオフラインおよびオンライン・オンライン設定における事前の手法を比較した。
ステートベース37ドル、イメージベースのベンチマークタスク25ドルの実験は、バリューフローが平均的な成功率で1.3\times$改善を達成していることを示している。
Webサイト: https://pd-perry.github.io/value-flowsコード: https://github.com/chongyi-zheng/value-flows
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布推定が消失することを示し,推定分布が急速に平均に崩壊することを実証的に観察した。
我々は,$L$の学習効率に感化され,効率のよい学習方法として,返却分布の期待値と量子値を共同で学習することを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Normality-Guided Distributional Reinforcement Learning for Continuous Control [13.818149654692863]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正常に近いことを実証的に確認した。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。