Fugu-MT 論文翻訳(概要): Generative AI Beyond LLMs: System Implications of Multi-Modal Generation

論文の概要: Generative AI Beyond LLMs: System Implications of Multi-Modal Generation

arxiv url: http://arxiv.org/abs/2312.14385v1
Date: Fri, 22 Dec 2023 02:21:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 16:26:57.977930
Title: Generative AI Beyond LLMs: System Implications of Multi-Modal Generation
Title（参考訳）: LLMを超えた生成AI:マルチモーダル生成のシステム意味
Authors: Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu
Abstract要約: 本稿では,マルチモーダルテキスト・ツー・イメージ(TTI)とテキスト・ツー・ビデオ(TTV)生成モデルに対する新しいシステム設計空間の理解に向けた最初の研究について述べる。 8種類のTTI/TTVモデルの系統的性能評価は,Flash Attentionのような最先端の最適化手法を適用した後,DiffusionベースのTTIモデルの実行時間の最大44%をコンボリューションが占めていることを示している。また、DiffusionベースのTTIモデルは、LLM推論のPrefillステージに似ており、Flashの1.1-2.5倍の高速化の恩恵を受ける。
参考スコア（独自算出の注目度）: 13.20931395558086
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the development of large-scale Generative AI models evolve beyond text (1D) generation to include image (2D) and video (3D) generation, processing spatial and temporal information presents unique challenges to quality, performance, and efficiency. We present the first work towards understanding this new system design space for multi-modal text-to-image (TTI) and text-to-video (TTV) generation models. Current model architecture designs are bifurcated into 2 categories: Diffusion- and Transformer-based models. Our systematic performance characterization on a suite of eight representative TTI/TTV models shows that after state-of-the-art optimization techniques such as Flash Attention are applied, Convolution accounts for up to 44% of execution time for Diffusion-based TTI models, while Linear layers consume up to 49% of execution time for Transformer-based models. We additionally observe that Diffusion-based TTI models resemble the Prefill stage of LLM inference, and benefit from 1.1-2.5x greater speedup from Flash Attention than Transformer-based TTI models that resemble the Decode phase. Since optimizations designed for LLMs do not map directly onto TTI/TTV models, we must conduct a thorough characterization of these workloads to gain insights for new optimization opportunities. In doing so, we define sequence length in the context of TTI/TTV models and observe sequence length can vary up to 4x in Diffusion model inference. We additionally observe temporal aspects of TTV workloads pose unique system bottlenecks, with Temporal Attention accounting for over 60% of total Attention time. Overall, our in-depth system performance characterization is a critical first step towards designing efficient and deployable systems for emerging TTI/TTV workloads.
Abstract（参考訳）: 大規模な生成AIモデルの開発がテキスト(1D)生成を超えて進化し、画像(2D)とビデオ(3D)生成を含むようになると、空間的および時間的情報の処理は品質、パフォーマンス、効率に固有の課題をもたらす。本稿では,マルチモーダルテキスト・ツー・イメージ(TTI)とテキスト・ツー・ビデオ(TTV)生成モデルに対する新しいシステム設計空間の理解に向けた最初の取り組みを示す。現在のモデルアーキテクチャ設計は、拡散モデルとトランスフォーマーモデルという2つのカテゴリに分けられる。 8種類のTTI/TTVモデルの系統的性能評価では,Flash Attentionのような最先端の最適化手法を適用した後,ConvolutionはDiffusionベースのTTIモデルの実行時間の最大44%を占め,Linear層はTransformerベースのモデルの実行時間の最大49%を消費している。また,Diffusion ベースの TTI モデルは LLM 推論の Prefill 段階に似ており,Decode フェーズに類似した Transformer ベースの TTI モデルよりも Flash Attention の 1.1-2.5 倍の高速化が期待できる。 LLM向けに設計された最適化は、直接TTI/TTVモデルにマッピングされないため、新たな最適化機会を得るために、これらのワークロードを徹底的に評価する必要がある。このようにして、TTI/TTVモデルの文脈でシーケンス長を定義し、拡散モデル推論において、シーケンス長は最大4倍まで変化する。さらに,ttvワークロードの時間的側面がユニークなシステムボトルネックをもたらし,時間的注意が全体の注意時間の60%以上を占めることを観察した。全体として、当社のシステムパフォーマンス評価は、新たなTTI/TTVワークロードのために効率的でデプロイ可能なシステムを設計するための重要な第一歩です。

関連論文リスト

One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文参考訳（メタデータ） (2025-05-28T04:23:22Z)
EAM: Enhancing Anything with Diffusion Transformers for Blind Super-Resolution [11.331361804059625]
Enhancing Anything Model (EAM)はBlind Super-Resolution法である。画像復元を効果的に誘導する新しいブロックである$Psi$-DiTを導入する。 EAMは、複数のデータセットにまたがる最先端の結果を達成し、定量的メトリクスと視覚的品質の両方において、既存の手法よりも優れています。
論文参考訳（メタデータ） (2025-05-08T13:03:07Z)
DyDiT++: Dynamic Diffusion Transformers for Efficient Visual Generation [66.86241453156225]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。 textbfDynamic textbfDiffusion textbfTransformer (DyDiT)を提案する。 DyDiTは、その計算を時間ステップと空間次元の両方に沿って調整する。
論文参考訳（メタデータ） (2025-04-09T11:48:37Z)
TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [34.73820805875123]
TIDE (Temporal-aware Sparse Autoencoders for Interpretable Diffusion transformErs) は,DiTアクティベーション層内の時間的再構築を段階的に促進する新しいフレームワークである。 TIDEはスパースオートエンコーダ(SAE)とスパースボトルネック層を使用して、解釈可能かつ階層的な特徴を抽出する。提案手法は,1e-3の平均2乗誤差(MSE)とコサイン類似度(0.97。
論文参考訳（メタデータ） (2025-03-10T08:35:51Z)
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文参考訳（メタデータ） (2025-01-02T18:59:40Z)
Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文参考訳（メタデータ） (2024-11-26T13:58:24Z)
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文参考訳（メタデータ） (2024-10-27T16:28:28Z)
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。特定の学習目標に対するデータセットの調整の重要性を強調した。トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文参考訳（メタデータ） (2024-10-08T04:30:06Z)
Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。本研究では,動的拡散変換器 (DyDiT) を提案する。 3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文参考訳（メタデータ） (2024-10-04T14:14:28Z)
DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。 DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文参考訳（メタデータ） (2023-12-04T18:57:01Z)
Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。 DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文参考訳（メタデータ） (2021-10-10T18:04:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。