論文の概要: What Does Flow Matching Bring To TD Learning?
- arxiv url: http://arxiv.org/abs/2603.04333v1
- Date: Wed, 04 Mar 2026 17:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.436199
- Title: What Does Flow Matching Bring To TD Learning?
- Title(参考訳): フローマッチングはTD学習に何をもたらすのか?
- Authors: Bhavya Agrawalla, Michal Nauman, Aviral Kumar,
- Abstract要約: 強化学習(RL)におけるスカラーQ値関数推定にフローマッチングが有効である
これらの結果から, 分布 RL ではその成功は説明されず, リターン分布を明示的にモデル化することで, 性能が低下することを示した。
我々は,この統合プロセスの各ステップにおける値の読み出しと高密度な速度管理に積分を用いることで,2つのメカニズムによるTD学習が向上すると主張している。
- 参考スコア(独自算出の注目度): 28.717975688380488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work shows that flow matching can be effective for scalar Q-value function estimation in reinforcement learning (RL), but it remains unclear why or how this approach differs from standard critics. Contrary to conventional belief, we show that their success is not explained by distributional RL, as explicitly modeling return distributions can reduce performance. Instead, we argue that the use of integration for reading out values and dense velocity supervision at each step of this integration process for training improves TD learning via two mechanisms. First, it enables robust value prediction through \emph{test-time recovery}, whereby iterative computation through integration dampens errors in early value estimates as more integration steps are performed. This recovery mechanism is absent in monolithic critics. Second, supervising the velocity field at multiple interpolant values induces more \emph{plastic} feature learning within the network, allowing critics to represent non-stationary TD targets without discarding previously learned features or overfitting to individual TD targets encountered during training. We formalize these effects and validate them empirically, showing that flow-matching critics substantially outperform monolithic critics (2$\times$ in final performance and around 5$\times$ in sample efficiency) in settings where loss of plasticity poses a challenge e.g., in high-UTD online RL problems, while remaining stable during learning.
- Abstract(参考訳): 近年の研究では、強化学習(RL)におけるQ値関数のスカラー推定にフローマッチングが有効であることが示されているが、なぜこの手法が標準的な批評家と異なるのかは定かではない。
従来の信念とは対照的に、リターン分布を明示的にモデル化することで性能を低下させることができるため、それらの成功は分布RLによって説明されない。
その代わりに、この統合プロセスの各ステップにおける値の読み出しと密集速度の監督に積分を用いることで、2つのメカニズムによるTD学習が向上すると主張している。
まず、‘emph{test-time recovery} を通じてロバストな値予測を可能にし、統合による反復的な計算により、より多くの統合ステップが実行されると、早期値推定の誤差が減少する。
この回復メカニズムは、モノリシックな批評家には欠落している。
第二に、複数の補間値で速度場を監督すると、ネットワーク内でよりもっと「emph{plastic}」な特徴学習が引き起こされるため、批評家は、以前に学習した特徴を放棄したり、トレーニング中に遭遇した個々のTDターゲットに過度に適合させることなく、非定常的なTDターゲットを表現できる。
これらの効果を形式化し、実証的に検証し、フローマッチング批評家が、学習中に安定しながら、高UTDオンラインRL問題において、可塑性の喪失が課題となるような環境で、モノリシックな批評家(最終性能で2$\times$、サンプル効率で5$\times$)を著しく上回っていることを示す。
関連論文リスト
- Advancing Analytic Class-Incremental Learning through Vision-Language Calibration [6.871141687303144]
事前学習モデル(PTM)を用いたクラスインクリメンタルラーニング(CIL)は、効率的な適応と長期的安定性の間に重要なトレードオフに直面している。
我々は,2段階の視覚言語キャリブレーション戦略によって解析的CILを向上する新しいデュアルブランチフレームワークである textbfVILA を提案する。
我々のフレームワークは解析学習の単純さと高忠実度予測を調和させる。
論文 参考訳(メタデータ) (2026-02-14T08:32:51Z) - FlowSteer: Guiding Few-Step Image Synthesis with Authentic Trajectories [82.90132015584359]
ReFlowはフローマッチングと理論的に整合性があるが、現実的なシナリオでは最適ではない。
本研究では,ReFlowをベースとした蒸留手法であるFlowSteerを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:13:23Z) - Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules [9.332823269318842]
スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - floq: Training Critics via Flow-Matching for Scaling Compute in Value-Based RL [26.288205235851887]
floqは、速度場を用いてQ関数をパラメータ化し、フローマッチングの技法を用いてそれを訓練するアプローチである。
Floqは、オフラインのRLベンチマークとオンラインの微調整タスクで、パフォーマンスを1.8倍近く改善している。
論文 参考訳(メタデータ) (2025-09-08T16:31:09Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - On Training Targets and Activation Functions for Deep Representation
Learning in Text-Dependent Speaker Verification [18.19207291891767]
主な考慮事項は、トレーニングターゲット、アクティベーション関数、損失関数である。
本研究では,話者識別を訓練対象とする場合の損失関数の範囲について検討する。
GELUはSigmoidと比較してTD-SVの誤差率を大幅に低減できることを示した。
論文 参考訳(メタデータ) (2022-01-17T14:32:51Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。