論文の概要: Revisiting Diffusion Q-Learning: From Iterative Denoising to One-Step Action Generation
- arxiv url: http://arxiv.org/abs/2508.13904v1
- Date: Tue, 19 Aug 2025 15:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.974913
- Title: Revisiting Diffusion Q-Learning: From Iterative Denoising to One-Step Action Generation
- Title(参考訳): 拡散Q-Learningの再考:反復的認知からワンステップ行動生成へ
- Authors: Thanh Nguyen, Chang D. Yoo,
- Abstract要約: One-Step Flow Q-Learning(OFQL)は、トレーニングと推論の両方で効率的なワンステップアクション生成を可能にする新しいフレームワークである。
D4RLベンチマークの実験では、OFQLがDQLや他の拡散ベースのベースラインより優れていることが示されている。
- 参考スコア(独自算出の注目度): 24.4555904944101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generative power of diffusion models (DMs) has recently enabled high-performing decision-making algorithms in offline reinforcement learning (RL), achieving state-of-the-art results across standard benchmarks. Among them, Diffusion Q-Learning (DQL) stands out as a leading method for its consistently strong performance. Nevertheless, DQL remains limited in practice due to its reliance on multi-step denoising for action generation during both training and inference. Although one-step denoising is desirable, simply applying it to DQL leads to a drastic performance drop. In this work, we revisit DQL and identify its core limitations. We then propose One-Step Flow Q-Learning (OFQL), a novel framework that enables efficient one-step action generation during both training and inference, without requiring auxiliary models, distillation, or multi-phase training. Specifically, OFQL reformulates DQL within the sample-efficient Flow Matching (FM) framework. While conventional FM induces curved generative trajectories that impede one-step generation, OFQL instead learns an average velocity field that facilitates direct, accurate action generation. Collectively, OFQL eliminates the need for multi-step sampling and recursive gradient updates in DQL, resulting in faster and more robust training and inference. Extensive experiments on the D4RL benchmark demonstrate that OFQL outperforms DQL and other diffusion-based baselines, while substantially reducing both training and inference time compared to DQL.
- Abstract(参考訳): 拡散モデル(DM)の生成力は、最近、オフライン強化学習(RL)における高性能な意思決定アルゴリズムを実現し、標準ベンチマーク全体にわたって最先端の結果を得た。
中でもDiffusion Q-Learning(DQL)は、その一貫して強力なパフォーマンスの第一の方法として際立っている。
それでもDQLは、トレーニングと推論の両方において、アクション生成のためのマルチステップのDenoisingに依存しているため、実際には制限されている。
1ステップのdenoisingが望ましいが、単にDQLにそれを適用すれば、劇的なパフォーマンス低下につながる。
この作業では、DQLを再検討し、その中核的な制限を特定します。
次に, 補助モデル, 蒸留, マルチフェーズトレーニングを必要とせず, トレーニングと推論の両方において, 効率的なワンステップアクション生成を可能にする新しいフレームワークであるOne-Step Flow Q-Learning (OFQL)を提案する。
具体的には、OFQLはサンプル効率のよいFlow Matching(FM)フレームワーク内でDQLを再構成する。
従来のFMは1ステップ生成を妨げる曲線生成軌道を誘導するが、OFQLは直接的かつ正確なアクション生成を促進する平均速度場を学習する。
集合的に言えば、OFQLはDQLのマルチステップサンプリングと再帰的な勾配更新の必要性を排除し、高速で堅牢なトレーニングと推論を実現している。
D4RLベンチマークの大規模な実験によると、OFQLはDQLや他の拡散ベースのベースラインよりも優れており、DQLと比較してトレーニングと推論の時間が大幅に短縮されている。
関連論文リスト
- Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling [69.84963245729826]
本稿では,検索者の後続のコントラスト学習のためのバックボーンを強化するために,QLの補助的タスクを提案する。
注意ブロック(AB)と文書破壊(DC)の2つの重要なコンポーネントを組み込んだモデルを紹介します。
論文 参考訳(メタデータ) (2025-04-07T16:03:59Z) - Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive
Control [8.374040635931298]
Inlicit Q-Learning (IQL)を用いて、モデル予測制御(TD-MPC)のための最先端の時間差学習を拡張するオフラインモデルベースRLアルゴリズムであるIQL-TD-MPCを導入する。
具体的には、時間的に抽象的なIQL-TD-MPCマネージャを事前トレーニングして、計画を通じて、ほぼサブゴールに対応する“インテリジェントな埋め込み”を予測する。
IQL-TD-MPCマネージャが生成するインテント埋め込みによる状態表現の増強は、市販のオフラインRLエージェントを著しく改善することを示した。
論文 参考訳(メタデータ) (2023-06-01T16:24:40Z) - Equalization Loss v2: A New Gradient Balance Approach for Long-tailed
Object Detection [12.408265499394089]
近年,長距離物体検出の主流パラダイムとして,分離学習法が提案されている。
等化損失(EQL)のようなエンドツーエンドのトレーニングメソッドは、分離されたトレーニングメソッドよりもパフォーマンスが悪い。
EQL v2は、各カテゴリのトレーニングプロセスを独立かつ均等に再バランスさせる新しいグラデーションガイドリウェイトメカニズムです。
論文 参考訳(メタデータ) (2020-12-15T19:01:48Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。