論文の概要: MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation
- arxiv url: http://arxiv.org/abs/2410.02130v1
- Date: Thu, 3 Oct 2024 01:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:35:44.737309
- Title: MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation
- Title(参考訳): MDSGen:オープンドメイン音発生のための高速かつ効率的な仮設拡散時間対応変圧器
- Authors: Trung X. Pham, Tri Ton, Chang D. Yoo,
- Abstract要約: MDSGenは視覚誘導型オープンドメイン音声生成のための新しいフレームワークである。
これには、冗長なビデオ機能削除モジュールと、時間対応のマスキング戦略という、2つの重要なイノベーションが含まれている。
- 参考スコア(独自算出の注目度): 21.242398582282522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MDSGen, a novel framework for vision-guided open-domain sound generation optimized for model parameter size, memory consumption, and inference speed. This framework incorporates two key innovations: (1) a redundant video feature removal module that filters out unnecessary visual information, and (2) a temporal-aware masking strategy that leverages temporal context for enhanced audio generation accuracy. In contrast to existing resource-heavy Unet-based models, MDSGen employs denoising masked diffusion transformers, facilitating efficient generation without reliance on pre-trained diffusion models. Evaluated on the benchmark VGGSound dataset, our smallest model (5M parameters) achieves 97.9% alignment accuracy, using 172x fewer parameters, 371% less memory, and offering 36x faster inference than the current 860M-parameter state-of-the-art model (93.9% accuracy). The larger model (131M parameters) reaches nearly 99% accuracy while requiring 6.5x fewer parameters. These results highlight the scalability and effectiveness of our approach.
- Abstract(参考訳): 我々は,モデルパラメータサイズ,メモリ消費,推論速度に最適化された視覚誘導型オープンドメイン音声生成のための新しいフレームワークであるMDSGenを紹介する。
このフレームワークには,(1)不要な視覚情報をフィルタリングする冗長なビデオ特徴除去モジュール,(2)時間的文脈を利用して音声生成精度を向上させる時間的マスキング戦略の2つの重要な革新が含まれている。
既存の資源量の多いUnetベースモデルとは対照的に、MDSGenはマスク付き拡散トランスフォーマーを採用しており、事前訓練された拡散モデルに頼らずに効率的な生成を容易にする。
ベンチマークVGGSoundデータセットから評価すると、我々の最小のモデル(5Mパラメータ)は、97.9%のアライメント精度、パラメータの172倍の削減、メモリ371%の削減、現在の860Mパラメーター・オブ・ザ・アートモデル(93.9%の精度)よりも36倍高速な推論を提供する。
より大きなモデル(131Mパラメータ)は6.5倍のパラメータを必要とするが、精度は99%近くに達する。
これらの結果は、我々のアプローチのスケーラビリティと有効性を強調します。
関連論文リスト
- E-MD3C: Taming Masked Diffusion Transformers for Efficient Zero-Shot Object Customization [20.441652320245975]
E-MD3Cは、ゼロショットオブジェクト画像のカスタマイズのための非常に効率的なフレームワークである。
リソース集約型Unetアーキテクチャに依存する以前の作業とは異なり、我々のアプローチでは軽量なマスク付き拡散トランスフォーマーを採用している。
E-MD3Cは、PSNR、FID、SSIM、LPIPSなどのメトリクスでVITON-HDデータセットの既存のアプローチより優れている。
論文 参考訳(メタデータ) (2025-02-13T10:48:11Z) - Light-T2M: A Lightweight and Fast Model for Text-to-motion Generation [30.05431858162078]
テキスト・トゥ・モーション(T2M)生成は様々なアプリケーションにおいて重要な役割を果たしている。
現在の手法ではパラメータが多数含まれており、推論速度が遅い。
本稿では,軽量で高速なLight-T2Mモデルを提案する。
論文 参考訳(メタデータ) (2024-12-15T13:58:37Z) - Diffusion Model Patching via Mixture-of-Prompts [17.04227271007777]
拡散モデルパッチング(DMP)は,事前学習した拡散モデルの性能を高めるための単純な手法である。
DMPは、オリジナルのモデルを凍結したまま、モデルの入力空間に小さな学習可能なプロンプトを挿入する。
DMPは、収束したDiT-L/2のFIDをFFHQで10.38%向上させる。
論文 参考訳(メタデータ) (2024-05-28T04:47:54Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。