論文の概要: Generative AI Beyond LLMs: System Implications of Multi-Modal Generation
- arxiv url: http://arxiv.org/abs/2312.14385v1
- Date: Fri, 22 Dec 2023 02:21:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:26:57.977930
- Title: Generative AI Beyond LLMs: System Implications of Multi-Modal Generation
- Title(参考訳): LLMを超えた生成AI:マルチモーダル生成のシステム意味
- Authors: Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin
Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu
- Abstract要約: 本稿では,マルチモーダルテキスト・ツー・イメージ(TTI)とテキスト・ツー・ビデオ(TTV)生成モデルに対する新しいシステム設計空間の理解に向けた最初の研究について述べる。
8種類のTTI/TTVモデルの系統的性能評価は,Flash Attentionのような最先端の最適化手法を適用した後,DiffusionベースのTTIモデルの実行時間の最大44%をコンボリューションが占めていることを示している。
また、DiffusionベースのTTIモデルは、LLM推論のPrefillステージに似ており、Flashの1.1-2.5倍の高速化の恩恵を受ける。
- 参考スコア(独自算出の注目度): 13.20931395558086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the development of large-scale Generative AI models evolve beyond text
(1D) generation to include image (2D) and video (3D) generation, processing
spatial and temporal information presents unique challenges to quality,
performance, and efficiency. We present the first work towards understanding
this new system design space for multi-modal text-to-image (TTI) and
text-to-video (TTV) generation models. Current model architecture designs are
bifurcated into 2 categories: Diffusion- and Transformer-based models. Our
systematic performance characterization on a suite of eight representative
TTI/TTV models shows that after state-of-the-art optimization techniques such
as Flash Attention are applied, Convolution accounts for up to 44% of execution
time for Diffusion-based TTI models, while Linear layers consume up to 49% of
execution time for Transformer-based models. We additionally observe that
Diffusion-based TTI models resemble the Prefill stage of LLM inference, and
benefit from 1.1-2.5x greater speedup from Flash Attention than
Transformer-based TTI models that resemble the Decode phase. Since
optimizations designed for LLMs do not map directly onto TTI/TTV models, we
must conduct a thorough characterization of these workloads to gain insights
for new optimization opportunities. In doing so, we define sequence length in
the context of TTI/TTV models and observe sequence length can vary up to 4x in
Diffusion model inference. We additionally observe temporal aspects of TTV
workloads pose unique system bottlenecks, with Temporal Attention accounting
for over 60% of total Attention time. Overall, our in-depth system performance
characterization is a critical first step towards designing efficient and
deployable systems for emerging TTI/TTV workloads.
- Abstract(参考訳): 大規模な生成AIモデルの開発がテキスト(1D)生成を超えて進化し、画像(2D)とビデオ(3D)生成を含むようになると、空間的および時間的情報の処理は品質、パフォーマンス、効率に固有の課題をもたらす。
本稿では,マルチモーダルテキスト・ツー・イメージ(TTI)とテキスト・ツー・ビデオ(TTV)生成モデルに対する新しいシステム設計空間の理解に向けた最初の取り組みを示す。
現在のモデルアーキテクチャ設計は、拡散モデルとトランスフォーマーモデルという2つのカテゴリに分けられる。
8種類のTTI/TTVモデルの系統的性能評価では,Flash Attentionのような最先端の最適化手法を適用した後,ConvolutionはDiffusionベースのTTIモデルの実行時間の最大44%を占め,Linear層はTransformerベースのモデルの実行時間の最大49%を消費している。
また,Diffusion ベースの TTI モデルは LLM 推論の Prefill 段階に似ており,Decode フェーズに類似した Transformer ベースの TTI モデルよりも Flash Attention の 1.1-2.5 倍の高速化が期待できる。
LLM向けに設計された最適化は、直接TTI/TTVモデルにマッピングされないため、新たな最適化機会を得るために、これらのワークロードを徹底的に評価する必要がある。
このようにして、TTI/TTVモデルの文脈でシーケンス長を定義し、拡散モデル推論において、シーケンス長は最大4倍まで変化する。
さらに,ttvワークロードの時間的側面がユニークなシステムボトルネックをもたらし,時間的注意が全体の注意時間の60%以上を占めることを観察した。
全体として、当社のシステムパフォーマンス評価は、新たなTTI/TTVワークロードのために効率的でデプロイ可能なシステムを設計するための重要な第一歩です。
関連論文リスト
- Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。