論文の概要: Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2505.10046v1
- Date: Thu, 15 May 2025 07:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.226875
- Title: Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis
- Title(参考訳): テキスト・画像合成のための大規模言語モデルの深層融合と拡散変換器の探索
- Authors: Bingda Tang, Boyang Zheng, Xichen Pan, Sayak Paul, Saining Xie,
- Abstract要約: 本稿では,多モード生成のための大規模言語モデル (LLM) と拡散変換器 (DiT) の深層融合について検討する。
従来の研究は主にシステム全体の性能に焦点を合わせており、代替手法との詳細な比較は行わなかった。
- 参考スコア(独自算出の注目度): 20.89152305418667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper does not describe a new method; instead, it provides a thorough exploration of an important yet understudied design space related to recent advances in text-to-image synthesis -- specifically, the deep fusion of large language models (LLMs) and diffusion transformers (DiTs) for multi-modal generation. Previous studies mainly focused on overall system performance rather than detailed comparisons with alternative methods, and key design details and training recipes were often left undisclosed. These gaps create uncertainty about the real potential of this approach. To fill these gaps, we conduct an empirical study on text-to-image generation, performing controlled comparisons with established baselines, analyzing important design choices, and providing a clear, reproducible recipe for training at scale. We hope this work offers meaningful data points and practical guidelines for future research in multi-modal generation.
- Abstract(参考訳): 本稿では,テキスト・画像合成の最近の進歩,特に大規模言語モデル (LLMs) と拡散変換器 (DiTs) の多モード生成のための深層融合に関する,重要かつ未検討な設計空間を網羅的に探求する。
以前の研究では、他の方法と詳細な比較ではなく、システム全体のパフォーマンスに重点を置いており、重要な設計の詳細とトレーニングのレシピはしばしば公表されていない。
これらのギャップは、このアプローチの本当の可能性を不確実なものにします。
これらのギャップを埋めるために、テキスト・ツー・イメージ生成に関する実証的研究を行い、既存のベースラインとの制御された比較を行い、重要な設計選択を分析し、大規模にトレーニングするための明確で再現可能なレシピを提供する。
この研究は、マルチモーダル世代における将来の研究に有意義なデータポイントと実践的ガイドラインを提供することを願っている。
関連論文リスト
- A Multimodal Fusion Network For Student Emotion Recognition Based on Transformer and Tensor Product [4.528221075598755]
本稿ではトランスフォーマーアーキテクチャとテンソル製品融合戦略に基づく新しいマルチモーダルモデルを提案する。
BERTのテキストベクトルとViTのイメージベクトルを組み合わせて、生徒の心理的条件を93.65%の精度で分類する。
論文 参考訳(メタデータ) (2024-03-13T13:16:26Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Transformers and Language Models in Form Understanding: A Comprehensive
Review of Scanned Document Analysis [16.86139440201837]
我々は、スキャンされた文書の文脈におけるフォーム理解のトピックに焦点を当てる。
我々の研究手法は、人気文書の詳細な分析と過去10年間のトレンドの理解の形式に関するものである。
我々は、トランスフォーマーがいかにフィールドを前進させ、フォームアンダード技術に革命をもたらしたかを紹介する。
論文 参考訳(メタデータ) (2024-03-06T22:22:02Z) - InfoDiffusion: Information Entropy Aware Diffusion Process for
Non-Autoregressive Text Generation [33.52794666968048]
本稿では,非自己回帰的テキスト拡散モデルであるInfoDiffusionを提案する。
提案手法は「キーフォファースト」生成戦略を導入し,テキスト情報量に基づいてノイズスケジュールを組み込む。
実験結果から,InfoDiffusionは生成品質と多様性の点でベースラインモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-18T14:01:39Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。