Fugu-MT 論文翻訳(概要): Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning

論文の概要: Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning

arxiv url: http://arxiv.org/abs/2412.12953v1
Date: Tue, 17 Dec 2024 14:34:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.74409
Title: Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning
Title（参考訳）: マルチタスク学習のためのエキスパートDenoiserの混在を考慮した効率的な拡散変圧器法
Authors: Moritz Reuss, Jyothish Pari, Pulkit Agrawal, Rudolf Lioutikov,
Abstract要約: Mixture-of-Denoising Experts (MoDE)は、Imitation Learningの新しいポリシーである。 MoDE は現在の最先端の Transformer ベースの Diffusion Policies を超えている。 MoDEは、確立された4つの模倣学習ベンチマークで134タスクの最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 19.66373610185542
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Policies have become widely used in Imitation Learning, offering several appealing properties, such as generating multimodal and discontinuous behavior. As models are becoming larger to capture more complex capabilities, their computational demands increase, as shown by recent scaling laws. Therefore, continuing with the current architectures will present a computational roadblock. To address this gap, we propose Mixture-of-Denoising Experts (MoDE) as a novel policy for Imitation Learning. MoDE surpasses current state-of-the-art Transformer-based Diffusion Policies while enabling parameter-efficient scaling through sparse experts and noise-conditioned routing, reducing both active parameters by 40% and inference costs by 90% via expert caching. Our architecture combines this efficient scaling with noise-conditioned self-attention mechanism, enabling more effective denoising across different noise levels. MoDE achieves state-of-the-art performance on 134 tasks in four established imitation learning benchmarks (CALVIN and LIBERO). Notably, by pretraining MoDE on diverse robotics data, we achieve 4.01 on CALVIN ABC and 0.95 on LIBERO-90. It surpasses both CNN-based and Transformer Diffusion Policies by an average of 57% across 4 benchmarks, while using 90% fewer FLOPs and fewer active parameters compared to default Diffusion Transformer architectures. Furthermore, we conduct comprehensive ablations on MoDE's components, providing insights for designing efficient and scalable Transformer architectures for Diffusion Policies. Code and demonstrations are available at https://mbreuss.github.io/MoDE_Diffusion_Policy/.
Abstract（参考訳）: Diffusion PoliciesはImitation Learningで広く使われ、マルチモーダルや不連続な振る舞いを生成するなど、いくつかの魅力的な特性を提供している。モデルがより複雑な能力を捉えるために大きくなるにつれて、最近のスケーリング法則で示されているように、その計算要求は増加する。したがって、現在のアーキテクチャを継続すると計算の障害となる。このギャップに対処するため,Imitation Learningの新たな方針としてMixture-of-Denoising Experts (MoDE)を提案する。 MoDEは現在の最先端のTransformerベースのDiffusion Policiesを超え、スパースの専門家とノイズ条件付きルーティングによるパラメータ効率のスケーリングを可能にし、アクティブパラメータの40%削減と専門家キャッシングによる推論コストの90%削減を実現している。我々のアーキテクチャは、この効率的なスケーリングとノイズ条件の自己アテンション機構を組み合わせることで、異なるノイズレベルをまたいだより効率的なデノイングを可能にします。 MoDEは、確立された4つの模倣学習ベンチマーク(CALVINとLIBERO)において、134のタスクで最先端のパフォーマンスを達成する。特に、多様なロボティクスデータでMoDEを事前訓練することにより、CALVIN ABCで4.01、LIBERO-90で0.95を達成する。 CNNベースのTransformer Diffusion Policiesを4つのベンチマークで平均57%上回り、デフォルトのDiffusion Transformerアーキテクチャと比較して、FLOPは90%少なく、アクティブパラメータは少ない。さらに、我々は、MoDEのコンポーネントを包括的に改善し、Diffusion Policiesのための効率的でスケーラブルなTransformerアーキテクチャを設計するための洞察を提供する。コードとデモはhttps://mbreuss.github.io/MoDE_Diffusion_Policy/で公開されている。

関連論文リスト

DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
SoftLMs: Efficient Adaptive Low-Rank Approximation of Language Models using Soft-Thresholding Mechanism [1.7170348600689374]
本稿では,ソフトしきい値設定機構を用いて各層のランクを動的に決定する新しい圧縮手法を提案する。本手法は,識別タスクのBERTや生成タスクのGPT2,TinyLlamaなど,注目に基づくアーキテクチャに適用可能である。実験により,提案手法はエンコーダ/デコーダにおける1.33Xから1.72Xの高速化を実現し,全パラメータの50%削減を実現した。
論文参考訳（メタデータ） (2024-11-15T19:29:51Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。本研究では,動的拡散変換器 (DyDiT) を提案する。 3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文参考訳（メタデータ） (2024-10-04T14:14:28Z)
Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。現在のMoEモデルはパラメータ非効率をしばしば表示する。我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文参考訳（メタデータ） (2024-08-13T10:25:13Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-19T18:18:33Z)
DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。 DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文参考訳（メタデータ） (2023-12-04T18:57:01Z)
FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文参考訳（メタデータ） (2021-11-27T06:20:53Z)
Dynamic Multi-scale Convolution for Dialect Identification [18.132769601922682]
本稿では、動的カーネル畳み込み、局所的マルチスケール学習、グローバルなマルチスケールプールからなる動的マルチスケール畳み込みを提案する。提案アーキテクチャは,言語認識のAP20-OLR-dialect-taskにおいて,最先端のシステムよりも優れていた。
論文参考訳（メタデータ） (2021-08-02T03:37:15Z)
SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture of Experts [29.582683923988203]
Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。新しいルータアーキテクチャは、共有埋め込みネットワークからの情報を同時に利用できるSpeechMoEで使用されている。
論文参考訳（メタデータ） (2021-05-07T02:38:23Z)
End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文参考訳（メタデータ） (2020-02-10T16:29:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。