論文の概要: Mini Diffuser: Fast Multi-task Diffusion Policy Training Using Two-level Mini-batches
- arxiv url: http://arxiv.org/abs/2505.09430v2
- Date: Thu, 05 Jun 2025 14:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 19:24:15.970648
- Title: Mini Diffuser: Fast Multi-task Diffusion Policy Training Using Two-level Mini-batches
- Title(参考訳): Mini Diffuser: 2レベルミニバッチを用いた高速マルチタスク拡散政策トレーニング
- Authors: Yutong Hu, Pinhao Song, Kehan Wen, Renaud Detry,
- Abstract要約: 本稿では,視覚ロボット拡散政策の学習に必要な時間と記憶量を,桁違いに削減する手法を提案する。
Mini-Diffuserは、多モードのアクション分布をモデル化する機能を含む拡散ベースのポリシーの重要な強みを保存する。
- 参考スコア(独自算出の注目度): 2.9144754050161503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method that reduces, by an order of magnitude, the time and memory needed to train multi-task vision-language robotic diffusion policies. This improvement arises from a previously underexplored distinction between action diffusion and the image diffusion techniques that inspired it: In image generation, the target is high-dimensional. By contrast, in action generation, the dimensionality of the target is comparatively small, and only the image condition is high-dimensional. Our approach, \emph{Mini Diffuser}, exploits this asymmetry by introducing \emph{two-level minibatching}, which pairs multiple noised action samples with each vision-language condition, instead of the conventional one-to-one sampling strategy. To support this batching scheme, we introduce architectural adaptations to the diffusion transformer that prevent information leakage across samples while maintaining full conditioning access. In RLBench simulations, Mini-Diffuser achieves 95\% of the performance of state-of-the-art multi-task diffusion policies, while using only 5\% of the training time and 7\% of the memory. Real-world experiments further validate that Mini-Diffuser preserves the key strengths of diffusion-based policies, including the ability to model multimodal action distributions and produce behavior conditioned on diverse perceptual inputs. Code available at mini-diffuse-actor.github.io
- Abstract(参考訳): 本稿では,マルチタスク視覚言語ロボット拡散ポリシーの学習に必要な時間と記憶量を,桁違いに削減する手法を提案する。
この改善は、以前未発見のアクション拡散と、それに触発された画像拡散技術との区別から生じる:画像生成では、ターゲットは高次元である。
対照的に、アクション生成では、ターゲットの次元性は比較的小さく、画像条件のみが高次元である。
提案手法は,従来の1対1のサンプリング戦略ではなく,複数のノイズのある動作サンプルと各視覚言語条件をペアリングする「emph{two-level minibatching」を導入することで,この非対称性を利用する。
このバッチ化方式をサポートするために,フルコンディショニングアクセスを維持しつつ,サンプル間の情報漏洩を防止する拡散変圧器のアーキテクチャ適応を導入する。
RLBenchシミュレーションでは、Mini-Diffuserは、トレーニング時間の5倍とメモリの7倍しか使用せず、最先端のマルチタスク拡散ポリシーの性能の95%を達成する。
実世界の実験は、Mini-Diffuserが多モーダルな行動分布をモデル化し、多様な知覚入力で条件付けられた振る舞いを生成できるなど、拡散ベースのポリシーの重要な強みを保っていることをさらに証明している。
mini-diffuse-actor.github.ioで利用可能なコード
関連論文リスト
- DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。
ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。
本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文 参考訳(メタデータ) (2024-12-07T11:19:32Z) - Latent Weight Diffusion: Generating Policies from Trajectories [13.404962654299041]
遅延重み拡散(英語: Latent Weight Diffusion、LWD)は、拡散を利用して、軌道よりもむしろロボットタスクのポリシーに関する分布を学習する手法である。
LWDは、バニラマルチタスクポリシーよりも高い成功率を達成する一方で、推論時に最大18倍のモデルを使用する。
論文 参考訳(メタデータ) (2024-10-17T21:30:29Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - SparseDM: Toward Sparse Efficient Diffusion Models [20.783533300147866]
拡散モデルの展開効率を向上させるために,改良されたストレートトラフ推定器に基づく手法を提案する。
トランスフォーマーとUNetを用いた拡散モデルによる実験結果から,FIDを維持しながらMACを50%削減できることが判明した。
論文 参考訳(メタデータ) (2024-04-16T10:31:06Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。