論文の概要: Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2502.05415v1
- Date: Sat, 08 Feb 2025 02:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:51.580034
- Title: Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation
- Title(参考訳): Show-o Turbo: 高速化された統合マルチモーダル理解と生成を目指して
- Authors: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng,
- Abstract要約: Show-oは、テキスト・ツー・イメージと画像・ツー・テキスト生成のためのマルチモーダル理解モデルである。
本稿では,Show-oと他のアプローチのギャップを埋めるため,Show-o Turboを提案する。
Show-o Turboは1.5倍のスピードアップで性能が大幅に低下する。
- 参考スコア(独自算出の注目度): 12.34529497235534
- License:
- Abstract: There has been increasing research interest in building unified multimodal understanding and generation models, among which Show-o stands as a notable representative, demonstrating great promise for both text-to-image and image-to-text generation. The inference of Show-o involves progressively denoising image tokens and autoregressively decoding text tokens, and hence, unfortunately, suffers from inefficiency issues from both sides. This paper introduces Show-o Turbo to bridge the gap. We first identify a unified denoising perspective for the generation of images and text in Show-o based on the parallel decoding of text tokens. We then propose to extend consistency distillation (CD), a qualified approach for shortening the denoising process of diffusion models, to the multimodal denoising trajectories of Show-o. We introduce a trajectory segmentation strategy and a curriculum learning procedure to improve the training convergence. Empirically, in text-to-image generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps without using classifier-free guidance (CFG), outperforming that of the original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo exhibits a 1.5x speedup without significantly sacrificing performance. The code is available at https://github.com/zhijie-group/Show-o-Turbo.
- Abstract(参考訳): 統合マルチモーダル理解と生成モデルの構築に対する研究の関心が高まっており、Show-oはテキスト・ツー・イメージと画像・ツー・テキスト・ジェネレーションの両面で大きな可能性を秘めている。
Show-oの推論では、画像トークンを段階的にデノベートし、テキストトークンを自己回帰的にデコードする。
本稿では,このギャップを埋めるためにShow-o Turboを紹介する。
まず、テキストトークンの並列復号化に基づいて、Show-oで画像とテキストを生成するための統一された復号化視点を同定する。
次に,拡散モデルの復調過程を短縮する適格な手法である整合蒸留(CD)を,Show-oのマルチモーダル復調軌道に拡張することを提案する。
我々は,訓練収束を改善するために,軌道分割戦略とカリキュラム学習手法を導入する。
実証的には、Show-o Turboは8ステップのShow-oとCFGを上回り、4ステップのサンプリングで0.625のGenEvalスコアを表示し、画像からテキスト生成では性能を著しく損なうことなく1.5倍のスピードアップを示す。
コードはhttps://github.com/zhijie-group/Show-o-Turbo.comで公開されている。
関連論文リスト
- DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation [46.5013105017258]
拡散モデルは、徐々に入力にノイズを加えるマルコフ過程を認知することによって訓練される。
自動回帰(AR)と拡散を非マルコフフレームワーク内で統一するトランスフォーマーモデルであるDARTを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:41:54Z) - Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT [120.39362661689333]
本稿では,Lumina-T2Xの改良版を提案する。
これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
論文 参考訳(メタデータ) (2024-06-05T17:53:26Z) - FIFO-Diffusion: Generating Infinite Videos from Text without Training [44.65468310143439]
FIFO-Diffusionは概念的には、追加のトレーニングなしで無限に長いビデオを生成することができる。
提案手法では, 頭部に完全に識別されたフレームを列挙し, 尾部に新しいランダムノイズフレームを列挙する。
提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。
論文 参考訳(メタデータ) (2024-05-19T07:48:41Z) - TheaterGen: Character Management with LLM for Consistent Multi-turn Image Generation [44.740794326596664]
TheaterGenは、大規模な言語モデル(LLM)とテキスト・ツー・イメージ(T2I)モデルを統合した、トレーニング不要のフレームワークである。
このフレームワーク内では、LLMは"Screenwriter"として機能し、マルチターンインタラクションを行い、標準化されたプロンプトブックを生成し管理する。
プロンプトブックとキャラクタイメージの効果的な管理により、StaceGenは合成画像のセマンティックとコンテキスト整合性を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-29T17:58:14Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。
Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文 参考訳(メタデータ) (2022-11-24T03:25:04Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。