論文の概要: Towards Efficient and Expressive Offline RL via Flow-Anchored Noise-conditioned Q-Learning
- arxiv url: http://arxiv.org/abs/2605.01663v1
- Date: Sun, 03 May 2026 01:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.874615
- Title: Towards Efficient and Expressive Offline RL via Flow-Anchored Noise-conditioned Q-Learning
- Title(参考訳): 流音条件付きQ-Learningによる高能率・高能率オフラインRLの実現に向けて
- Authors: Sungyoung Lee, Dohyeong Kim, Eshan Balachandar, Zelal Su Mustafaoglu, Keshav Pingali,
- Abstract要約: 流音条件付きQ-Learning(FAN)を提案する。
FANは高効率で高性能なオフライン強化学習アルゴリズムである。
ロボット操作と移動タスクの実験は、FANが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 4.215835343017977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Flow-Anchored Noise-conditioned Q-Learning (FAN), a highly efficient and high-performing offline reinforcement learning (RL) algorithm. Recent work has shown that expressive flow policies and distributional critics improve offline RL performance, but at a high computational cost. Specifically, flow policies require iterative sampling to produce a single action, and distributional critics require computation over multiple samples (e.g., quantiles) to estimate value. To address these inefficiencies while maintaining high performance, we introduce FAN. Our method employs a behavior regularization technique that utilizes only a single flow policy iteration and requires only a single Gaussian noise sample for distributional critics. Our theoretical analysis of convergence and performance bounds demonstrates that these simplifications not only improve efficiency but also lead to superior task performance. Experiments on robotic manipulation and locomotion tasks demonstrate that FAN achieves state-of-the-art performance while significantly reducing both training and inference runtimes. We release our code at https://github.com/brianlsy98/FAN.
- Abstract(参考訳): 本稿では,高効率かつ高性能なオフライン強化学習(RL)アルゴリズムであるFAN(Flow-Anchored Noise- Conditioned Q-Learning)を提案する。
近年の研究では、表現的フローポリシーと分布批判がオフラインのRL性能を向上するが、計算コストが高いことが示されている。
具体的には、フローポリシーは単一のアクションを生成するために反復サンプリングを必要とし、分散批評家は値を推定するために複数のサンプル(例えば、量子化)の計算を必要とする。
高い性能を維持しながら、これらの非効率に対処するため、FANを導入する。
本手法では, 単一フローポリシー反復のみを利用する動作規則化手法を用いて, 分布批判者に対して1つのガウス雑音サンプルのみを必要とする。
収束と性能境界の理論解析は、これらの単純化が効率を向上するだけでなく、タスク性能も向上することを示した。
ロボット操作と移動タスクの実験は、FANが最先端のパフォーマンスを実現し、トレーニングと推論ランタイムの両方を著しく削減することを示した。
コードをhttps://github.com/brianlsy98/FANでリリースします。
関連論文リスト
- FASTER: Value-Guided Sampling for Fast RL [103.55398181003262]
FASTERは、計算コストを伴わずに拡散ベースのポリシーのサンプリングベースのテストタイムスケーリングの利点を得る方法である。
FASTERは、トレーニングと推論の計算要求を大幅に削減しながら、同じパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-04-21T17:52:17Z) - Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR [23.417956258945427]
本稿では,学習中の情報的質問文の優先順位付けに精度推定を利用するポストトレーニングフレームワークを提案する。
PACED-RL は LLM のより効率的な分布マッチング訓練のための有望な方向である。
論文 参考訳(メタデータ) (2026-02-13T06:04:14Z) - Squeezing More from the Stream : Learning Representation Online for Streaming Reinforcement Learning [14.799267729619428]
ストリーミング強化学習(RL)では、トランジッションが観察され、1回の更新直後に破棄される。
本稿では,SPR(Self-Predictive Representations)をストリーミングパイプラインに拡張して,観測フレームの有効性を最大化することを提案する。
本稿では,リプレイバッファの欠如による性能ギャップを埋めることで,よりリッチな表現を学習できることを示す。
論文 参考訳(メタデータ) (2026-02-10T04:06:32Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI [8.90880897951322]
ジェネレーティブ・モデリングは、ビジュモータ・ポリシー・ラーニング(英語版)において顕著な将来性を示した。
EfficientFlowは、フローベースのポリシー学習を備えた効率的なエンボディAIのための統合されたフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T18:59:59Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models [29.090093552573766]
本稿では,VLA(Vision-Language-Action)フローモデルに対するオフラインRLポストトレーニング目標を提案する。
次に、効率よく実現可能なオフラインRL微調整アルゴリズム -- Adaptive Reinforced Flow Matching (ARFM) を誘導する。
ARFMは優れた一般化、堅牢性、少数ショット学習、継続的な学習性能を示す。
論文 参考訳(メタデータ) (2025-09-04T09:48:43Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。