論文の概要: UniCMs: A Unified Consistency Model For Efficient Multimodal Generation and Understanding
- arxiv url: http://arxiv.org/abs/2502.05415v2
- Date: Sun, 18 May 2025 14:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 21:29:33.307923
- Title: UniCMs: A Unified Consistency Model For Efficient Multimodal Generation and Understanding
- Title(参考訳): UniCMs: 効率的なマルチモーダル生成と理解のための統一一貫性モデル
- Authors: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng,
- Abstract要約: 一貫性モデル(CM)は、画像とテキストの両方を効率的に生成する可能性を示している。
主な課題は、画像生成とテキスト生成の両方に統一された認知的視点を確立することである。
テキスト・画像生成では、UniCMはGenEval、Image Reward、CLIPスコアでSD3を上回っている。
画像からテキスト生成では、UniCMはMMMUベンチマークのShow-oを上回り、ロングシーケンス生成速度では1.5倍高速である。
- 参考スコア(独自算出の注目度): 12.34529497235534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistency models (CMs) have shown promise in the efficient generation of both image and text. This raises the natural question of whether we can learn a unified CM for efficient multimodal generation (e.g., text-to-image) and understanding (e.g., image-to-text). Intuitively, such a model could be acquired by applying the consistency distillation (CD) to existing unified multimodal models. However, the key challenge is establishing a unified denoising perspective for both image and text generation, which is essential for establishing the consistency mapping. To tackle this, at the representation level, we advocate for discrete tokens for both modalities to best preserve language modeling capabilities. Critically, instead of defining the text denoising trajectory via recent discrete diffusion language modeling principles, we specify it using the parallel decoding trace of an autoregressive language model, benefiting from the latter's superior performance in general text generation tasks. The denoising trajectory of image tokens adheres to standard discrete diffusion. We train our unified consistency models (UniCMs) on these combined multimodal trajectories simultaneously with a unified objective. We introduce a trajectory segmentation strategy to further improve the training convergence. Empirically, in text-to-image generation, UniCMs outperform SD3 on GenEval, Image Reward, and CLIP Score metrics, while requiring only approximately ${1}/{8}$ of the sampling time. Meanwhile, in image-to-text generation, UniCMs surpass Show-o on the MMMU benchmark while being $1.5 \times$ faster at long-sequence generating speed. The code is available at https://github.com/zhijie-group/UniCMs.
- Abstract(参考訳): 一貫性モデル(CM)は、画像とテキストの両方の効率的な生成を約束している。
これにより、効率的なマルチモーダル生成(例:text-to-image)と理解(例: Image-to-text)のために統合CMを学習できるかどうかという自然な疑問が提起される。
直感的には、そのようなモデルは既存の統一マルチモーダルモデルに一貫性蒸留(CD)を適用することで得られる。
しかし、重要な課題は、画像とテキスト生成の両方に統一された認知的視点を確立することである。
これを解決するために、表現レベルでは、言語モデリング能力を最大限に保存するために、両方のモダリティに対して離散トークンを提唱する。
批判的なことに、近年の離散拡散言語モデリングの原則によって軌道を記述したテキストを定義する代わりに、自動回帰言語モデルの並列復号トレースを用いて、一般的なテキスト生成タスクにおける後者の優れたパフォーマンスの恩恵を受ける。
画像トークンの認知軌道は標準的な離散拡散に固執する。
我々は、これらの統合マルチモーダル軌道上で統一整合モデル(UniCM)を同時に訓練する。
トレーニング収束をさらに改善するために,軌道分割戦略を導入する。
実証的には、テキスト・画像生成では、UniCMはGenEval、Image Reward、CLIP ScoreのSD3よりも優れており、サンプリング時間は約${1}/{8}$である。
一方、画像からテキスト生成では、UniCMはMMMUベンチマークのShow-oを上回り、ロングシーケンス生成速度では1.5 \times$高速である。
コードはhttps://github.com/zhijie-group/UniCMsで入手できる。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。
提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。
本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文 参考訳(メタデータ) (2025-02-27T15:08:39Z) - DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation [46.5013105017258]
拡散モデルは、徐々に入力にノイズを加えるマルコフ過程を認知することによって訓練される。
自動回帰(AR)と拡散を非マルコフフレームワーク内で統一するトランスフォーマーモデルであるDARTを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:41:54Z) - FIFO-Diffusion: Generating Infinite Videos from Text without Training [44.65468310143439]
FIFO-Diffusionは概念的には、追加のトレーニングなしで無限に長いビデオを生成することができる。
提案手法では, 頭部に完全に識別されたフレームを列挙し, 尾部に新しいランダムノイズフレームを列挙する。
提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。
論文 参考訳(メタデータ) (2024-05-19T07:48:41Z) - TheaterGen: Character Management with LLM for Consistent Multi-turn Image Generation [44.740794326596664]
TheaterGenは、大規模な言語モデル(LLM)とテキスト・ツー・イメージ(T2I)モデルを統合した、トレーニング不要のフレームワークである。
このフレームワーク内では、LLMは"Screenwriter"として機能し、マルチターンインタラクションを行い、標準化されたプロンプトブックを生成し管理する。
プロンプトブックとキャラクタイメージの効果的な管理により、StaceGenは合成画像のセマンティックとコンテキスト整合性を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-29T17:58:14Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation [138.98095392584693]
本稿では,自己回帰拡散(AR-Diffusion)を導入し,自然言語の固有な逐次特性について考察する。
AR拡散は、右のトークンの生成が左の生成されたトークンに依存することを保証します。
様々なテキスト生成タスクに関する一連の実験において、AR-Diffusionは既存の拡散言語モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-05-16T15:10:22Z) - Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。
Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文 参考訳(メタデータ) (2022-11-24T03:25:04Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。