論文の概要: Train a Multi-Task Diffusion Policy on RLBench-18 in One Day with One GPU
- arxiv url: http://arxiv.org/abs/2505.09430v1
- Date: Wed, 14 May 2025 14:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.49414
- Title: Train a Multi-Task Diffusion Policy on RLBench-18 in One Day with One GPU
- Title(参考訳): RLBench-18上のマルチタスク拡散ポリシーを1つのGPUで1日で学習する
- Authors: Yutong Hu, Pinhao Song, Kehan Wen, Renaud Detry,
- Abstract要約: 本稿では,学習時間とメモリ使用量を桁違いに削減するマルチタスク視覚ロボット拡散ポリシーの訓練方法を提案する。
我々のアプローチであるMini-Diffuserは、Level-2ミニバッチを導入することで、この非対称性を利用する。
RLBenchシミュレーションでは、Mini-Diffuserは最先端マルチタスク拡散ポリシーの性能の95%を達成する。
- 参考スコア(独自算出の注目度): 2.9144754050161503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for training multi-task vision-language robotic diffusion policies that reduces training time and memory usage by an order of magnitude. This improvement arises from a previously underexplored distinction between action diffusion and the image diffusion techniques that inspired it: image generation targets are high-dimensional, while robot actions lie in a much lower-dimensional space. Meanwhile, the vision-language conditions for action generation remain high-dimensional. Our approach, Mini-Diffuser, exploits this asymmetry by introducing Level-2 minibatching, which pairs multiple noised action samples with each vision-language condition, instead of the conventional one-to-one sampling strategy. To support this batching scheme, we introduce architectural adaptations to the diffusion transformer that prevent information leakage across samples while maintaining full conditioning access. In RLBench simulations, Mini-Diffuser achieves 95\% of the performance of state-of-the-art multi-task diffusion policies, while using only 5\% of the training time and 7\% of the memory. Real-world experiments further validate that Mini-Diffuser preserves the key strengths of diffusion-based policies, including the ability to model multimodal action distributions and produce behavior conditioned on diverse perceptual inputs. Code available at github.com/utomm/mini-diffuse-actor.
- Abstract(参考訳): 本稿では,学習時間とメモリ使用量を桁違いに削減する多タスク視覚言語ロボット拡散政策の訓練方法を提案する。
画像生成ターゲットは高次元であり、ロボットの行動はより低次元の空間にある。
一方、行動生成のための視覚言語条件は高次元のままである。
提案手法は,従来の1対1のサンプリング戦略ではなく,複数のノイズのある動作サンプルと各視覚言語条件をペアリングするLevel-2 Minibatchingを導入することで,この非対称性を利用する。
このバッチ化方式をサポートするために,フルコンディショニングアクセスを維持しつつ,サンプル間の情報漏洩を防止する拡散変圧器のアーキテクチャ適応を導入する。
RLBenchシミュレーションでは、Mini-Diffuserは、トレーニング時間の5倍とメモリの7倍しか使用せず、最先端のマルチタスク拡散ポリシーの性能の95%を達成する。
実世界の実験は、Mini-Diffuserが多モーダルな行動分布をモデル化し、多様な知覚入力で条件付けられた振る舞いを生成できるなど、拡散ベースのポリシーの重要な強みを保っていることをさらに証明している。
github.com/utomm/mini-diffuse-actorで利用可能なコード。
関連論文リスト
- DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。
ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。
本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文 参考訳(メタデータ) (2024-12-07T11:19:32Z) - Latent Weight Diffusion: Generating Policies from Trajectories [13.404962654299041]
遅延重み拡散(英語: Latent Weight Diffusion、LWD)は、拡散を利用して、軌道よりもむしろロボットタスクのポリシーに関する分布を学習する手法である。
LWDは、バニラマルチタスクポリシーよりも高い成功率を達成する一方で、推論時に最大18倍のモデルを使用する。
論文 参考訳(メタデータ) (2024-10-17T21:30:29Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - SparseDM: Toward Sparse Efficient Diffusion Models [20.783533300147866]
拡散モデルの展開効率を向上させるために,改良されたストレートトラフ推定器に基づく手法を提案する。
トランスフォーマーとUNetを用いた拡散モデルによる実験結果から,FIDを維持しながらMACを50%削減できることが判明した。
論文 参考訳(メタデータ) (2024-04-16T10:31:06Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。