論文の概要: TBAC-UniImage: Unified Understanding and Generation by Ladder-Side Diffusion Tuning
- arxiv url: http://arxiv.org/abs/2508.08098v1
- Date: Mon, 11 Aug 2025 15:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.179518
- Title: TBAC-UniImage: Unified Understanding and Generation by Ladder-Side Diffusion Tuning
- Title(参考訳): TBAC-UniImage:Ladder-Side Diffusion Tuningによる統一的理解と生成
- Authors: Junzhe Xu, Yuyang Yin, Xi Chen,
- Abstract要約: 本稿では,マルチモーダル理解と生成のための新しい統一モデルであるTBAC-UniImageを紹介する。
我々は、生成はしごとして機能する事前学習拡散モデルとマルチモーダル大言語モデル(MLLM)を深く統合することにより、これを実現できる。
- 参考スコア(独自算出の注目度): 4.055271388591777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces TBAC-UniImage, a novel unified model for multimodal understanding and generation. We achieve this by deeply integrating a pre-trained Diffusion Model, acting as a generative ladder, with a Multimodal Large Language Model (MLLM). Previous diffusion-based unified models face two primary limitations. One approach uses only the MLLM's final hidden state as the generative condition. This creates a shallow connection, as the generator is isolated from the rich, hierarchical representations within the MLLM's intermediate layers. The other approach, pretraining a unified generative architecture from scratch, is computationally expensive and prohibitive for many researchers. To overcome these issues, our work explores a new paradigm. Instead of relying on a single output, we use representations from multiple, diverse layers of the MLLM as generative conditions for the diffusion model. This method treats the pre-trained generator as a ladder, receiving guidance from various depths of the MLLM's understanding process. Consequently, TBAC-UniImage achieves a much deeper and more fine-grained unification of understanding and generation.
- Abstract(参考訳): 本稿では,マルチモーダル理解と生成のための新しい統一モデルであるTBAC-UniImageを紹介する。
本研究では,事前学習した拡散モデルとMLLM(Multimodal Large Language Model)を深く統合することにより,これを実現している。
従来の拡散に基づく統一モデルは2つの主要な制限に直面している。
1つのアプローチは、MLLMの最終的な隠れ状態のみを生成条件として使用する。
これにより、ジェネレータはMLLMの中間層内のリッチで階層的な表現から分離されるため、浅い接続が生成される。
もう1つのアプローチは、一貫した生成アーキテクチャをゼロから事前訓練することであり、多くの研究者にとって計算コストが高く、禁止されている。
これらの問題を克服するために、我々の研究は新たなパラダイムを探求する。
単一の出力に頼る代わりに、拡散モデルの生成条件としてMLLMの多層多様な層からの表現を用いる。
本手法は、MLLMの理解過程の様々な深さから誘導を受けながら、事前訓練されたジェネレータをはしごとして扱う。
その結果、TBAC-UniImageはより深く、よりきめ細かな理解と生成の統一を実現した。
関連論文リスト
- Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents [55.82787697101274]
Bifrost-1は、事前訓練されたマルチモーダルLLM(MLLM)と拡散モデルをブリッジする統合フレームワークである。
予め訓練したMLLMと拡散モデルとパッチレベルのCLIPラプタントをシームレスに統合することにより,高忠実度制御可能な画像生成を実現する。
実験の結果,Bifrost-1は視覚的忠実度やマルチモーダル理解の観点から,従来の手法と同等あるいは優れた性能を達成できた。
論文 参考訳(メタデータ) (2025-08-08T02:38:47Z) - Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.31088116526825]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。
自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability [14.703591553247948]
ARMORは、マルチモーダルな大規模言語モデルのためのリソース効率が高く純粋な自動回帰フレームワークである。
既存のMLLMを微調整することで、理解と生成を両立させる。
ARMOR は,既存の MLLM を UniM にアップグレードし,将来性のある画像生成機能を実現する。
論文 参考訳(メタデータ) (2025-03-09T10:15:39Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - Learning Joint Latent Space EBM Prior Model for Multi-layer Generator [44.4434704520236]
多層ジェネレータモデルの学習における基礎的問題について検討する。
本稿では,全層にまたがる待ち行列空間上のエネルギーモデル (EBM) を提案する。
実験により、学習したモデルが高品質な画像を生成する際に表現できることが実証された。
論文 参考訳(メタデータ) (2023-06-10T00:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。