Fugu-MT 論文翻訳(概要): Diffusion Models as Optimizers for Efficient Planning in Offline RL

論文の概要: Diffusion Models as Optimizers for Efficient Planning in Offline RL

arxiv url: http://arxiv.org/abs/2407.16142v1
Date: Tue, 23 Jul 2024 03:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 18:55:32.834286
Title: Diffusion Models as Optimizers for Efficient Planning in Offline RL
Title（参考訳）: オフラインRLの効率的な計画手法としての拡散モデル
Authors: Renming Huang, Yunqiang Pei, Guoqing Wang, Yangming Zhang, Yang Yang, Peng Wang, Hengtao Shen,
Abstract要約: 拡散モデルはオフラインの強化学習タスクにおいて強い競争力を示している。本稿では,より高速な自己回帰モデルを提案する。これにより、能力を犠牲にすることなく、より効率的な計画を達成することができます。
参考スコア（独自算出の注目度）: 47.0835433289033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have shown strong competitiveness in offline reinforcement learning tasks by formulating decision-making as sequential generation. However, the practicality of these methods is limited due to the lengthy inference processes they require. In this paper, we address this problem by decomposing the sampling process of diffusion models into two decoupled subprocesses: 1) generating a feasible trajectory, which is a time-consuming process, and 2) optimizing the trajectory. With this decomposition approach, we are able to partially separate efficiency and quality factors, enabling us to simultaneously gain efficiency advantages and ensure quality assurance. We propose the Trajectory Diffuser, which utilizes a faster autoregressive model to handle the generation of feasible trajectories while retaining the trajectory optimization process of diffusion models. This allows us to achieve more efficient planning without sacrificing capability. To evaluate the effectiveness and efficiency of the Trajectory Diffuser, we conduct experiments on the D4RL benchmarks. The results demonstrate that our method achieves $\it 3$-$\it 10 \times$ faster inference speed compared to previous sequence modeling methods, while also outperforming them in terms of overall performance. https://github.com/RenMing-Huang/TrajectoryDiffuser Keywords: Reinforcement Learning and Efficient Planning and Diffusion Model
Abstract（参考訳）: 拡散モデルは、意思決定を逐次生成として定式化し、オフライン強化学習タスクにおいて強力な競争力を示した。しかし、これらの手法の実用性は、それらが必要とする長大な推論プロセスによって制限される。本稿では,拡散モデルのサンプリングプロセスを2つの切り離されたサブプロセスに分解することで,この問題に対処する。 1)時間を要する実行可能な軌道を生成し、 2)軌道の最適化この分解アプローチにより、効率と品質の要素を部分的に分離することができ、効率の利点と品質保証を同時に得ることができます。本稿では、高速な自己回帰モデルを用いて、拡散モデルの軌道最適化プロセスを維持しながら、実現可能な軌道生成を処理するトラジェクトリディフューザを提案する。これにより、能力を犠牲にすることなく、より効率的な計画を達成することができます。軌道ディフューザの有効性と効率を評価するため,D4RLベンチマークを用いて実験を行った。その結果,提案手法は,従来のシーケンスモデリング手法よりも高速な推論速度を実現するとともに,性能的にも優れていた。 https://github.com/RenMing-Huang/TrajectoryDiffuserキーワード:強化学習と効率的な計画と拡散モデル

関連論文リスト

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文参考訳（メタデータ） (2025-05-21T17:44:37Z)
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening [56.99266993852532]
拡散シャープニング(Diffusion-Sharpening)は、サンプリング軌道を最適化することで下流のアライメントを向上させる微調整手法である。提案手法は, NFEを必要とせず, より高速に収束し, 最高の推論効率を示す。
論文参考訳（メタデータ） (2025-02-17T18:57:26Z)
DiP-GO: A Diffusion Pruner via Few-step Gradient Optimization [22.546989373687655]
本稿では,よりインテリジェントで微分可能なプルーナーを用いて,効率的な拡散モデルを導出する新しいプルーニング法を提案する。提案手法はSD-1.5の4.4倍の高速化を実現し,従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-22T12:18:24Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
Optimizing Diffusion Models for Joint Trajectory Prediction and Controllable Generation [49.49868273653921]
拡散モデルは、自律運転における共同軌道予測と制御可能な生成を約束する。最適ガウス拡散(OGD)と推定クリーンマニフォールド(ECM)誘導を導入する。提案手法は生成過程の合理化を図り,計算オーバーヘッドを低減した実用的な応用を実現する。
論文参考訳（メタデータ） (2024-08-01T17:59:59Z)
Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis [82.72941975704374]
非自己回帰変換器(NAT)は、その急速な世代で認識されている。トレーニング戦略と推論戦略の設計を再考することにより、NATの潜在能力を再評価する。自動フレームワークで最適な戦略を直接解き、既存の手法を超えることを提案する。
論文参考訳（メタデータ） (2024-06-08T13:52:20Z)
Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following [21.81411085058986]
Reward-gradient guided denoisingは、微分可能報酬関数と拡散モデルによって捕捉されたデータ分布下での確率の両方を最大化する軌道を生成する。そこで我々は,勾配のない最適化と軌道デノゲーションを組み合わせたDiffusionESを提案する。 DiffusionESは、自動運転のための確立されたクローズドループ計画ベンチマークであるnuPlan上で、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-02-09T17:18:33Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文参考訳（メタデータ） (2023-10-31T00:12:14Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。