論文の概要: Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning
- arxiv url: http://arxiv.org/abs/2412.12953v1
- Date: Tue, 17 Dec 2024 14:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:04.006552
- Title: Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning
- Title(参考訳): マルチタスク学習のためのエキスパートDenoiserの混在を考慮した効率的な拡散変圧器法
- Authors: Moritz Reuss, Jyothish Pari, Pulkit Agrawal, Rudolf Lioutikov,
- Abstract要約: Mixture-of-Denoising Experts (MoDE)は、Imitation Learningの新しいポリシーである。
MoDE は現在の最先端の Transformer ベースの Diffusion Policies を超えている。
MoDEは、確立された4つの模倣学習ベンチマークで134タスクの最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 19.66373610185542
- License:
- Abstract: Diffusion Policies have become widely used in Imitation Learning, offering several appealing properties, such as generating multimodal and discontinuous behavior. As models are becoming larger to capture more complex capabilities, their computational demands increase, as shown by recent scaling laws. Therefore, continuing with the current architectures will present a computational roadblock. To address this gap, we propose Mixture-of-Denoising Experts (MoDE) as a novel policy for Imitation Learning. MoDE surpasses current state-of-the-art Transformer-based Diffusion Policies while enabling parameter-efficient scaling through sparse experts and noise-conditioned routing, reducing both active parameters by 40% and inference costs by 90% via expert caching. Our architecture combines this efficient scaling with noise-conditioned self-attention mechanism, enabling more effective denoising across different noise levels. MoDE achieves state-of-the-art performance on 134 tasks in four established imitation learning benchmarks (CALVIN and LIBERO). Notably, by pretraining MoDE on diverse robotics data, we achieve 4.01 on CALVIN ABC and 0.95 on LIBERO-90. It surpasses both CNN-based and Transformer Diffusion Policies by an average of 57% across 4 benchmarks, while using 90% fewer FLOPs and fewer active parameters compared to default Diffusion Transformer architectures. Furthermore, we conduct comprehensive ablations on MoDE's components, providing insights for designing efficient and scalable Transformer architectures for Diffusion Policies. Code and demonstrations are available at https://mbreuss.github.io/MoDE_Diffusion_Policy/.
- Abstract(参考訳): Diffusion PoliciesはImitation Learningで広く使われ、マルチモーダルや不連続な振る舞いを生成するなど、いくつかの魅力的な特性を提供している。
モデルがより複雑な能力を捉えるために大きくなるにつれて、最近のスケーリング法則で示されているように、その計算要求は増加する。
したがって、現在のアーキテクチャを継続すると計算の障害となる。
このギャップに対処するため,Imitation Learningの新たな方針としてMixture-of-Denoising Experts (MoDE)を提案する。
MoDEは現在の最先端のTransformerベースのDiffusion Policiesを超え、スパースの専門家とノイズ条件付きルーティングによるパラメータ効率のスケーリングを可能にし、アクティブパラメータの40%削減と専門家キャッシングによる推論コストの90%削減を実現している。
我々のアーキテクチャは、この効率的なスケーリングとノイズ条件の自己アテンション機構を組み合わせることで、異なるノイズレベルをまたいだより効率的なデノイングを可能にします。
MoDEは、確立された4つの模倣学習ベンチマーク(CALVINとLIBERO)において、134のタスクで最先端のパフォーマンスを達成する。
特に、多様なロボティクスデータでMoDEを事前訓練することにより、CALVIN ABCで4.01、LIBERO-90で0.95を達成する。
CNNベースのTransformer Diffusion Policiesを4つのベンチマークで平均57%上回り、デフォルトのDiffusion Transformerアーキテクチャと比較して、FLOPは90%少なく、アクティブパラメータは少ない。
さらに、我々は、MoDEのコンポーネントを包括的に改善し、Diffusion Policiesのための効率的でスケーラブルなTransformerアーキテクチャを設計するための洞察を提供する。
コードとデモはhttps://mbreuss.github.io/MoDE_Diffusion_Policy/で公開されている。
関連論文リスト
- LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。
各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。
遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文 参考訳(メタデータ) (2024-12-17T01:12:35Z) - SoftLMs: Efficient Adaptive Low-Rank Approximation of Language Models using Soft-Thresholding Mechanism [1.7170348600689374]
本稿では,ソフトしきい値設定機構を用いて各層のランクを動的に決定する新しい圧縮手法を提案する。
本手法は,識別タスクのBERTや生成タスクのGPT2,TinyLlamaなど,注目に基づくアーキテクチャに適用可能である。
実験により,提案手法はエンコーダ/デコーダにおける1.33Xから1.72Xの高速化を実現し,全パラメータの50%削減を実現した。
論文 参考訳(メタデータ) (2024-11-15T19:29:51Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Dynamic Multi-scale Convolution for Dialect Identification [18.132769601922682]
本稿では、動的カーネル畳み込み、局所的マルチスケール学習、グローバルなマルチスケールプールからなる動的マルチスケール畳み込みを提案する。
提案アーキテクチャは,言語認識のAP20-OLR-dialect-taskにおいて,最先端のシステムよりも優れていた。
論文 参考訳(メタデータ) (2021-08-02T03:37:15Z) - SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture
of Experts [29.582683923988203]
Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。
本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。
新しいルータアーキテクチャは、共有埋め込みネットワークからの情報を同時に利用できるSpeechMoEで使用されている。
論文 参考訳(メタデータ) (2021-05-07T02:38:23Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。