論文の概要: Revisiting Diffusion Q-Learning: From Iterative Denoising to One-Step Action Generation
- arxiv url: http://arxiv.org/abs/2508.13904v2
- Date: Wed, 01 Oct 2025 06:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.699671
- Title: Revisiting Diffusion Q-Learning: From Iterative Denoising to One-Step Action Generation
- Title(参考訳): 拡散Q-Learningの再考:反復的認知からワンステップ行動生成へ
- Authors: Thanh Nguyen, Chang D. Yoo,
- Abstract要約: Diffusion Q-Learning (DQL)は、オフライン強化学習の高性能パラダイムとして拡散ポリシーを確立している。
DQLを1段階のデノイングに向けて加速する現在の取り組みは、補助モジュールや政策蒸留に依存している。
One-Step Flow Q-Learning (OFQL)は、トレーニングと推論の両方で効果的なワンステップアクション生成を可能にする。
- 参考スコア(独自算出の注目度): 34.007490094198424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Q-Learning (DQL) has established diffusion policies as a high-performing paradigm for offline reinforcement learning, but its reliance on multi-step denoising for action generation renders both training and inference slow and fragile. Existing efforts to accelerate DQL toward one-step denoising typically rely on auxiliary modules or policy distillation, sacrificing either simplicity or performance. It remains unclear whether a one-step policy can be trained directly without such trade-offs. To this end, we introduce One-Step Flow Q-Learning (OFQL), a novel framework that enables effective one-step action generation during both training and inference, without auxiliary modules or distillation. OFQL reformulates the DQL policy within the Flow Matching (FM) paradigm but departs from conventional FM by learning an average velocity field that directly supports accurate one-step action generation. This design removes the need for multi-step denoising and backpropagation-through-time updates, resulting in substantially faster and more robust learning. Extensive experiments on the D4RL benchmark show that OFQL, despite generating actions in a single step, not only significantly reduces computation during both training and inference but also outperforms multi-step DQL by a large margin. Furthermore, OFQL surpasses all other baselines, achieving state-of-the-art performance in D4RL.
- Abstract(参考訳): Diffusion Q-Learning (DQL)は、オフライン強化学習の高性能パラダイムとして拡散ポリシーを確立している。
DQLを1ステップのデノイングに加速するこれまでの取り組みは、一般的に補助的なモジュールやポリシーの蒸留に依存しており、単純さとパフォーマンスを犠牲にしている。
このようなトレードオフなしに一段階の政策を直接訓練できるかどうかは不明だ。
この目的のために, 補助モジュールや蒸留を使わずに, トレーニングと推論の両方において効果的なワンステップアクション生成を可能にする新しいフレームワークであるOne-Step Flow Q-Learning (OFQL)を紹介した。
OFQLは、フローマッチング(FM)パラダイム内でDQLポリシーを再構築するが、正確なワンステップアクション生成を直接サポートする平均速度場を学ぶことによって、従来のFMから離れる。
この設計では、マルチステップのデノベーションとバックプロパゲーション・スルータイムの更新の必要性が排除され、より高速で堅牢な学習が可能になった。
D4RLベンチマークの大規模な実験によると、単一ステップでアクションを生成するにもかかわらず、OFQLはトレーニングと推論の両方の処理を著しく削減するだけでなく、マルチステップのDQLを大きなマージンで上回っている。
さらに、OFQLは他のすべてのベースラインを超え、D4RLで最先端のパフォーマンスを達成する。
関連論文リスト
- Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling [69.84963245729826]
本稿では,検索者の後続のコントラスト学習のためのバックボーンを強化するために,QLの補助的タスクを提案する。
注意ブロック(AB)と文書破壊(DC)の2つの重要なコンポーネントを組み込んだモデルを紹介します。
論文 参考訳(メタデータ) (2025-04-07T16:03:59Z) - Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive
Control [8.374040635931298]
Inlicit Q-Learning (IQL)を用いて、モデル予測制御(TD-MPC)のための最先端の時間差学習を拡張するオフラインモデルベースRLアルゴリズムであるIQL-TD-MPCを導入する。
具体的には、時間的に抽象的なIQL-TD-MPCマネージャを事前トレーニングして、計画を通じて、ほぼサブゴールに対応する“インテリジェントな埋め込み”を予測する。
IQL-TD-MPCマネージャが生成するインテント埋め込みによる状態表現の増強は、市販のオフラインRLエージェントを著しく改善することを示した。
論文 参考訳(メタデータ) (2023-06-01T16:24:40Z) - Equalization Loss v2: A New Gradient Balance Approach for Long-tailed
Object Detection [12.408265499394089]
近年,長距離物体検出の主流パラダイムとして,分離学習法が提案されている。
等化損失(EQL)のようなエンドツーエンドのトレーニングメソッドは、分離されたトレーニングメソッドよりもパフォーマンスが悪い。
EQL v2は、各カテゴリのトレーニングプロセスを独立かつ均等に再バランスさせる新しいグラデーションガイドリウェイトメカニズムです。
論文 参考訳(メタデータ) (2020-12-15T19:01:48Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。