論文の概要: MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation
- arxiv url: http://arxiv.org/abs/2410.02130v1
- Date: Thu, 3 Oct 2024 01:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 08:35:44.737309
- Title: MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation
- Title(参考訳): MDSGen:オープンドメイン音発生のための高速かつ効率的な仮設拡散時間対応変圧器
- Authors: Trung X. Pham, Tri Ton, Chang D. Yoo,
- Abstract要約: MDSGenは視覚誘導型オープンドメイン音声生成のための新しいフレームワークである。
これには、冗長なビデオ機能削除モジュールと、時間対応のマスキング戦略という、2つの重要なイノベーションが含まれている。
- 参考スコア(独自算出の注目度): 21.242398582282522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MDSGen, a novel framework for vision-guided open-domain sound generation optimized for model parameter size, memory consumption, and inference speed. This framework incorporates two key innovations: (1) a redundant video feature removal module that filters out unnecessary visual information, and (2) a temporal-aware masking strategy that leverages temporal context for enhanced audio generation accuracy. In contrast to existing resource-heavy Unet-based models, MDSGen employs denoising masked diffusion transformers, facilitating efficient generation without reliance on pre-trained diffusion models. Evaluated on the benchmark VGGSound dataset, our smallest model (5M parameters) achieves 97.9% alignment accuracy, using 172x fewer parameters, 371% less memory, and offering 36x faster inference than the current 860M-parameter state-of-the-art model (93.9% accuracy). The larger model (131M parameters) reaches nearly 99% accuracy while requiring 6.5x fewer parameters. These results highlight the scalability and effectiveness of our approach.
- Abstract(参考訳): 我々は,モデルパラメータサイズ,メモリ消費,推論速度に最適化された視覚誘導型オープンドメイン音声生成のための新しいフレームワークであるMDSGenを紹介する。
このフレームワークには,(1)不要な視覚情報をフィルタリングする冗長なビデオ特徴除去モジュール,(2)時間的文脈を利用して音声生成精度を向上させる時間的マスキング戦略の2つの重要な革新が含まれている。
既存の資源量の多いUnetベースモデルとは対照的に、MDSGenはマスク付き拡散トランスフォーマーを採用しており、事前訓練された拡散モデルに頼らずに効率的な生成を容易にする。
ベンチマークVGGSoundデータセットから評価すると、我々の最小のモデル(5Mパラメータ)は、97.9%のアライメント精度、パラメータの172倍の削減、メモリ371%の削減、現在の860Mパラメーター・オブ・ザ・アートモデル(93.9%の精度)よりも36倍高速な推論を提供する。
より大きなモデル(131Mパラメータ)は6.5倍のパラメータを必要とするが、精度は99%近くに達する。
これらの結果は、我々のアプローチのスケーラビリティと有効性を強調します。
関連論文リスト
- Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model [60.171601995737646]
Mobile-VideoGPTはビデオ理解のための効率的なマルチモーダルフレームワークである。
軽量なデュアルビジュアルエンコーダ、効率的なプロジェクタ、小型言語モデル(SLM)で構成されている。
その結果,Mobile-VideoGPT-0.5Bは最大46トークンを毎秒生成できることがわかった。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - E-MD3C: Taming Masked Diffusion Transformers for Efficient Zero-Shot Object Customization [20.441652320245975]
E-MD3Cは、ゼロショットオブジェクト画像のカスタマイズのための非常に効率的なフレームワークである。
リソース集約型Unetアーキテクチャに依存する以前の作業とは異なり、我々のアプローチでは軽量なマスク付き拡散トランスフォーマーを採用している。
E-MD3Cは、PSNR、FID、SSIM、LPIPSなどのメトリクスでVITON-HDデータセットの既存のアプローチより優れている。
論文 参考訳(メタデータ) (2025-02-13T10:48:11Z) - Light-T2M: A Lightweight and Fast Model for Text-to-motion Generation [30.05431858162078]
テキスト・トゥ・モーション(T2M)生成は様々なアプリケーションにおいて重要な役割を果たしている。
現在の手法ではパラメータが多数含まれており、推論速度が遅い。
本稿では,軽量で高速なLight-T2Mモデルを提案する。
論文 参考訳(メタデータ) (2024-12-15T13:58:37Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Diffusion Model Patching via Mixture-of-Prompts [17.04227271007777]
拡散モデルパッチング(DMP)は,事前学習した拡散モデルの性能を高めるための単純な手法である。
DMPは、オリジナルのモデルを凍結したまま、モデルの入力空間に小さな学習可能なプロンプトを挿入する。
論文 参考訳(メタデータ) (2024-05-28T04:47:54Z) - SparseDM: Toward Sparse Efficient Diffusion Models [20.783533300147866]
拡散モデルの展開効率を向上させるために,改良されたストレートトラフ推定器に基づく手法を提案する。
トランスフォーマーとUNetを用いた拡散モデルによる実験結果から,FIDを維持しながらMACを50%削減できることが判明した。
論文 参考訳(メタデータ) (2024-04-16T10:31:06Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - SeTformer is What You Need for Vision and Language [26.036537788653373]
自己最適化輸送(SeT)は、より良い性能と計算効率を実現するための新しいトランスフォーマーである。
SeTformerは、ImageNet-1Kで84.7%、86.2%という印象的なトップ1アキュラシーを達成した。
SeTformerはGLUEベンチマークで言語モデリングの最先端の結果も達成している。
論文 参考訳(メタデータ) (2024-01-07T16:52:49Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Gradient-based Parameter Selection for Efficient Fine-Tuning [41.30092426231482]
グラディエントベース。
選択(GPS)はパラメータ効率の良い新しい微調整法である。
GPSはトレーニングと推論の段階で追加のパラメータや計算コストを導入していない。
GPSは3.33%(91.78% vs. 88.45%, FGVC)、9.61%(73.1% vs. 65.57%, VTAB)の精度向上を実現している。
論文 参考訳(メタデータ) (2023-12-15T18:59:05Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - An Efficient Deep Learning Model for Automatic Modulation Recognition
Based on Parameter Estimation and Transformation [3.3941243094128035]
本稿では,位相パラメータ推定と変換に基づく効率的なDL-AMRモデルを提案する。
我々のモデルは、類似の認識精度を持つベンチマークモデルよりも、トレーニング時間とテスト時間で競争力がある。
論文 参考訳(メタデータ) (2021-10-11T03:28:28Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。