論文の概要: Generative AI Beyond LLMs: System Implications of Multi-Modal Generation
- arxiv url: http://arxiv.org/abs/2312.14385v2
- Date: Mon, 6 May 2024 03:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 00:05:27.610125
- Title: Generative AI Beyond LLMs: System Implications of Multi-Modal Generation
- Title(参考訳): LLMを超えたジェネレーティブAI:マルチモーダルジェネレーションのシステム意味
- Authors: Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu,
- Abstract要約: 本稿では,マルチモーダルテキスト・ツー・イメージ(TTI)とテキスト・ツー・ビデオ(TTV)生成モデルに対する新しいシステム設計空間の理解に向けた最初の研究について述べる。
8種類のTTI/TTVモデルの系統的性能評価は,Flash Attentionのような最先端の最適化手法を適用した後,DiffusionベースのTTIモデルの実行時間の最大44%をコンボリューションが占めていることを示している。
また、DiffusionベースのTTIモデルは、LLM推論のPrefillステージに似ており、Flashの1.1-2.5倍の高速化の恩恵を受ける。
- 参考スコア(独自算出の注目度): 12.827526286642282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the development of large-scale Generative AI models evolve beyond text (1D) generation to include image (2D) and video (3D) generation, processing spatial and temporal information presents unique challenges to quality, performance, and efficiency. We present the first work towards understanding this new system design space for multi-modal text-to-image (TTI) and text-to-video (TTV) generation models. Current model architecture designs are bifurcated into 2 categories: Diffusion- and Transformer-based models. Our systematic performance characterization on a suite of eight representative TTI/TTV models shows that after state-of-the-art optimization techniques such as Flash Attention are applied, Convolution accounts for up to 44% of execution time for Diffusion-based TTI models, while Linear layers consume up to 49% of execution time for Transformer-based models. We additionally observe that Diffusion-based TTI models resemble the Prefill stage of LLM inference, and benefit from 1.1-2.5x greater speedup from Flash Attention than Transformer-based TTI models that resemble the Decode phase. Since optimizations designed for LLMs do not map directly onto TTI/TTV models, we must conduct a thorough characterization of these workloads to gain insights for new optimization opportunities. In doing so, we define sequence length in the context of TTI/TTV models and observe sequence length can vary up to 4x in Diffusion model inference. We additionally observe temporal aspects of TTV workloads pose unique system bottlenecks, with Temporal Attention accounting for over 60% of total Attention time. Overall, our in-depth system performance characterization is a critical first step towards designing efficient and deployable systems for emerging TTI/TTV workloads.
- Abstract(参考訳): 大規模な生成AIモデルの開発がテキスト(1D)生成を超えて進化し、画像(2D)とビデオ(3D)生成を含むようになると、空間的および時間的情報の処理は品質、パフォーマンス、効率に固有の課題をもたらす。
本稿では,マルチモーダルテキスト・ツー・イメージ(TTI)とテキスト・ツー・ビデオ(TTV)生成モデルに対する新しいシステム設計空間の理解に向けた最初の研究について述べる。
現在のモデルアーキテクチャ設計は、拡散モデルとトランスフォーマーモデルという2つのカテゴリに分けられる。
8種類のTTI/TTVモデルの系統的性能評価では,Flash Attentionのような最先端の最適化手法を適用した後,ConvolutionはDiffusionベースのTTIモデルの実行時間の最大44%を占め,Linear層はTransformerベースのモデルの実行時間の最大49%を消費している。
また,Diffusion ベースの TTI モデルは LLM 推論の Prefill 段階に似ており,Decode フェーズに類似した Transformer ベースの TTI モデルよりも Flash Attention の 1.1-2.5 倍の高速化が期待できる。
LLM向けに設計された最適化は、直接TTI/TTVモデルにマッピングされないため、新たな最適化機会の洞察を得るために、これらのワークロードを徹底的に評価する必要がある。
このようにして、TTI/TTVモデルの文脈でシーケンス長を定義し、拡散モデル推論において、シーケンス長は最大4倍まで変化する。
さらに、TTVワークロードの時間的側面がユニークなシステムのボトルネックを生じさせ、時間的注意が全注意時間の60%以上を占めていることを観察する。
全体として、当社のシステムパフォーマンス評価は、新たなTTI/TTVワークロードのために、効率的でデプロイ可能なシステムを設計するための重要な第一歩です。
関連論文リスト
- Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT [120.39362661689333]
本稿では,Lumina-T2Xの改良版を提案する。
これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
論文 参考訳(メタデータ) (2024-06-05T17:53:26Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Denoising Task Routing for Diffusion Models [19.373733104929325]
拡散モデルは、多段階の復調過程を学習することにより、非常にリアルな画像を生成する。
拡散モデルとマルチタスク学習(MTL)の間に固有のつながりがあるにもかかわらず、ニューラルネットワークの設計には未解明領域が残っている。
本稿では,既存の拡散モデルアーキテクチャのためのシンプルなアドオン戦略であるDenoising Task Routing(DTR)について述べる。
論文 参考訳(メタデータ) (2023-10-11T02:23:18Z) - DuETT: Dual Event Time Transformer for Electronic Health Records [14.520791492631114]
我々はDuETTアーキテクチャを紹介した。これは、時間とイベントの両タイプにまたがるように設計されたトランスフォーマーの拡張である。
DuETTは集約された入力を使用し、スパース時系列は一定長さの正規シーケンスに変換される。
本モデルでは,MIMIC-IV と PhysioNet-2012 EHR データセットを用いて,複数の下流タスクにおける最先端のディープラーニングモデルより優れています。
論文 参考訳(メタデータ) (2023-04-25T17:47:48Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Searching for Two-Stream Models in Multivariate Space for Video
Recognition [80.25356538056839]
本稿では,巨大空間における2ストリーム映像モデルを効率的に検索できる実用的ニューラルアーキテクチャ探索手法を提案する。
設計空間において,性能が著しく向上した2ストリームモデルを自動的に発見できることを実証する。
論文 参考訳(メタデータ) (2021-08-30T02:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。