Fugu-MT 論文翻訳(概要): Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation

論文の概要: Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation

arxiv url: http://arxiv.org/abs/2502.05415v1
Date: Sat, 08 Feb 2025 02:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:49.634408
Title: Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation
Title（参考訳）: Show-o Turbo: 高速化された統合マルチモーダル理解と生成を目指して
Authors: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng,
Abstract要約: Show-oは、テキスト・ツー・イメージと画像・ツー・テキスト生成のためのマルチモーダル理解モデルである。本稿では,Show-oと他のアプローチのギャップを埋めるため,Show-o Turboを提案する。 Show-o Turboは1.5倍のスピードアップで性能が大幅に低下する。
参考スコア（独自算出の注目度）: 12.34529497235534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There has been increasing research interest in building unified multimodal understanding and generation models, among which Show-o stands as a notable representative, demonstrating great promise for both text-to-image and image-to-text generation. The inference of Show-o involves progressively denoising image tokens and autoregressively decoding text tokens, and hence, unfortunately, suffers from inefficiency issues from both sides. This paper introduces Show-o Turbo to bridge the gap. We first identify a unified denoising perspective for the generation of images and text in Show-o based on the parallel decoding of text tokens. We then propose to extend consistency distillation (CD), a qualified approach for shortening the denoising process of diffusion models, to the multimodal denoising trajectories of Show-o. We introduce a trajectory segmentation strategy and a curriculum learning procedure to improve the training convergence. Empirically, in text-to-image generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps without using classifier-free guidance (CFG), outperforming that of the original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo exhibits a 1.5x speedup without significantly sacrificing performance. The code is available at https://github.com/zhijie-group/Show-o-Turbo.
Abstract（参考訳）: 統合マルチモーダル理解と生成モデルの構築に対する研究の関心が高まっており、Show-oはテキスト・ツー・イメージと画像・ツー・テキスト・ジェネレーションの両面で大きな可能性を秘めている。 Show-oの推論では、画像トークンを段階的にデノベートし、テキストトークンを自己回帰的にデコードする。本稿では,このギャップを埋めるためにShow-o Turboを紹介する。まず、テキストトークンの並列復号化に基づいて、Show-oで画像とテキストを生成するための統一された復号化視点を同定する。次に,拡散モデルの復調過程を短縮する適格な手法である整合蒸留(CD)を,Show-oのマルチモーダル復調軌道に拡張することを提案する。我々は,訓練収束を改善するために,軌道分割戦略とカリキュラム学習手法を導入する。実証的には、Show-o Turboは8ステップのShow-oとCFGを上回り、4ステップのサンプリングで0.625のGenEvalスコアを表示し、画像からテキスト生成では性能を著しく損なうことなく1.5倍のスピードアップを示す。コードはhttps://github.com/zhijie-group/Show-o-Turbo.comで公開されている。

関連論文リスト

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文参考訳（メタデータ） (2025-03-17T17:58:30Z)
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文参考訳（メタデータ） (2025-02-27T15:08:39Z)
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation [46.5013105017258]
拡散モデルは、徐々に入力にノイズを加えるマルコフ過程を認知することによって訓練される。自動回帰(AR)と拡散を非マルコフフレームワーク内で統一するトランスフォーマーモデルであるDARTを提案する。
論文参考訳（メタデータ） (2024-10-10T17:41:54Z)
FIFO-Diffusion: Generating Infinite Videos from Text without Training [44.65468310143439]
FIFO-Diffusionは概念的には、追加のトレーニングなしで無限に長いビデオを生成することができる。提案手法では, 頭部に完全に識別されたフレームを列挙し, 尾部に新しいランダムノイズフレームを列挙する。提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。
論文参考訳（メタデータ） (2024-05-19T07:48:41Z)
TheaterGen: Character Management with LLM for Consistent Multi-turn Image Generation [44.740794326596664]
TheaterGenは、大規模な言語モデル(LLM)とテキスト・ツー・イメージ(T2I)モデルを統合した、トレーニング不要のフレームワークである。このフレームワーク内では、LLMは"Screenwriter"として機能し、マルチターンインタラクションを行い、標準化されたプロンプトブックを生成し管理する。プロンプトブックとキャラクタイメージの効果的な管理により、StaceGenは合成画像のセマンティックとコンテキスト整合性を大幅に改善する。
論文参考訳（メタデータ） (2024-04-29T17:58:14Z)
Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文参考訳（メタデータ） (2023-12-23T11:10:43Z)
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation [138.98095392584693]
本稿では,自己回帰拡散(AR-Diffusion)を導入し,自然言語の固有な逐次特性について考察する。 AR拡散は、右のトークンの生成が左の生成されたトークンに依存することを保証します。様々なテキスト生成タスクに関する一連の実験において、AR-Diffusionは既存の拡散言語モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2023-05-16T15:10:22Z)
Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。 Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文参考訳（メタデータ） (2022-11-24T03:25:04Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。 ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-07-16T00:19:22Z)
TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。 TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文参考訳（メタデータ） (2020-05-27T06:40:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。