論文の概要: DiWA: Diffusion Policy Adaptation with World Models
- arxiv url: http://arxiv.org/abs/2508.03645v1
- Date: Tue, 05 Aug 2025 16:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.089762
- Title: DiWA: Diffusion Policy Adaptation with World Models
- Title(参考訳): DiWA:世界モデルによる拡散政策適応
- Authors: Akshay L Chandra, Iman Nematollahi, Chenguang Huang, Tim Welschehold, Wolfram Burgard, Abhinav Valada,
- Abstract要約: 強化学習(RL)による微調整拡散政策は重要な課題である。
RL法は数百万の現実世界の相互作用を必要とし、実用的な微調整のボトルネックとなる。
拡散型ロボット技術の微調整に世界モデルを活用する新しいフレームワークであるDiWAを導入し、強化学習で完全にオフライン化する。
- 参考スコア(独自算出の注目度): 23.14823270502518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning diffusion policies with reinforcement learning (RL) presents significant challenges. The long denoising sequence for each action prediction impedes effective reward propagation. Moreover, standard RL methods require millions of real-world interactions, posing a major bottleneck for practical fine-tuning. Although prior work frames the denoising process in diffusion policies as a Markov Decision Process to enable RL-based updates, its strong dependence on environment interaction remains highly inefficient. To bridge this gap, we introduce DiWA, a novel framework that leverages a world model for fine-tuning diffusion-based robotic skills entirely offline with reinforcement learning. Unlike model-free approaches that require millions of environment interactions to fine-tune a repertoire of robot skills, DiWA achieves effective adaptation using a world model trained once on a few hundred thousand offline play interactions. This results in dramatically improved sample efficiency, making the approach significantly more practical and safer for real-world robot learning. On the challenging CALVIN benchmark, DiWA improves performance across eight tasks using only offline adaptation, while requiring orders of magnitude fewer physical interactions than model-free baselines. To our knowledge, this is the first demonstration of fine-tuning diffusion policies for real-world robotic skills using an offline world model. We make the code publicly available at https://diwa.cs.uni-freiburg.de.
- Abstract(参考訳): 強化学習(RL)による微調整拡散政策は重要な課題である。
各動作予測に対する長い復調シーケンスは、効果的な報奨伝搬を阻害する。
さらに、標準的なRL法は数百万の現実世界の相互作用を必要とし、実践的な微調整において大きなボトルネックとなる。
以前の研究は、RLベースの更新を可能にするためのマルコフ決定プロセスとして拡散政策の偏極過程を定めているが、環境相互作用への強い依存は依然として非常に非効率である。
このギャップを埋めるために、我々は、ディワ(DiWA)という世界モデルを利用して、強化学習で完全にオフラインの拡散に基づくロボットスキルを微調整する新しいフレームワークを紹介した。
ロボットスキルのレパートリーを微調整するために、何百万もの環境相互作用を必要とするモデルレスアプローチとは異なり、DiWAは、数十万のオフラインプレイインタラクションで一度トレーニングされた世界モデルを使用して、効果的な適応を実現する。
これにより、サンプル効率が劇的に向上し、実際のロボット学習において、アプローチがより実用的で安全になる。
挑戦的なCALVINベンチマークでは、DiWAはオフライン適応のみを使用して8つのタスクのパフォーマンスを改善すると同時に、モデルフリーのベースラインよりもはるかに少ない物理的相互作用を必要とする。
我々の知る限り、これはオフラインの世界モデルを用いた現実世界のロボットスキルのための微調整拡散ポリシーの最初の実演である。
コードはhttps://diwa.cs.uni-freiburg.deで公開しています。
関連論文リスト
- Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach [55.76249793590689]
Video-Enhanced Offline RL (VeoRL) は、インタラクティブな世界モデルを構築するためのモデルベースの手法である。
VeoRLは、ロボット操作、自律運転、オープンワールドビデオゲームにおける視覚制御タスクにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-10T00:54:12Z) - Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Accelerating Model-Based Reinforcement Learning with State-Space World Models [18.71404724458449]
強化学習(Reinforcement Learning, RL)は、ロボット学習における強力なアプローチである。
しかし、モデルフリーRL(MFRL)は、制御ポリシーをうまく学習するために、多数の環境相互作用を必要とする。
状態空間世界モデルを用いたモデルベースRLの高速化手法を提案する。
論文 参考訳(メタデータ) (2025-02-27T15:05:25Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models [19.05224410249602]
閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
論文 参考訳(メタデータ) (2024-05-30T09:34:31Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z) - On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning [45.73223325256312]
最新のモデルベースRLアルゴリズムで学習した内部モデルが、新しい明らかに異なるタスクを高速に解くために活用できるかどうかを考察する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。