論文の概要: A Comprehensive Study of Decoder-Only LLMs for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2506.08210v1
- Date: Mon, 09 Jun 2025 20:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.670498
- Title: A Comprehensive Study of Decoder-Only LLMs for Text-to-Image Generation
- Title(参考訳): テキスト・画像生成のためのデコーダ専用LCMの総合的研究
- Authors: Andrew Z. Wang, Songwei Ge, Tero Karras, Ming-Yu Liu, Yogesh Balaji,
- Abstract要約: 多くのテキスト・ツー・イメージモデルでは、T5とCLIPをテキストエンコーダとして採用している。
私たちは、異なるテキスト埋め込みの効果を分離し、評価できるように、標準化されたトレーニングと評価パイプラインを構築します。
実験の結果, 最終層埋め込みを条件付けとして使用するというデファクトな手法は, 性能を低下させることがわかった。
- 参考スコア(独自算出の注目度): 30.041283605038316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both text-to-image generation and large language models (LLMs) have made significant advancements. However, many text-to-image models still employ the somewhat outdated T5 and CLIP as their text encoders. In this work, we investigate the effectiveness of using modern decoder-only LLMs as text encoders for text-to-image diffusion models. We build a standardized training and evaluation pipeline that allows us to isolate and evaluate the effect of different text embeddings. We train a total of 27 text-to-image models with 12 different text encoders to analyze the critical aspects of LLMs that could impact text-to-image generation, including the approaches to extract embeddings, different LLMs variants, and model sizes. Our experiments reveal that the de facto way of using last-layer embeddings as conditioning leads to inferior performance. Instead, we explore embeddings from various layers and find that using layer-normalized averaging across all layers significantly improves alignment with complex prompts. Most LLMs with this conditioning outperform the baseline T5 model, showing enhanced performance in advanced visio-linguistic reasoning skills.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーションと大規模言語モデル(LLM)はどちらも大きな進歩を遂げている。
しかし、多くのテキスト・ツー・イメージモデルでは、T5とCLIPをテキストエンコーダとして採用している。
本研究では,テキストから画像への拡散モデルのためのテキストエンコーダとして,現代のデコーダのみのLLMを用いることの有効性について検討する。
私たちは、異なるテキスト埋め込みの効果を分離し、評価できるように、標準化されたトレーニングと評価パイプラインを構築します。
12の異なるテキストエンコーダを持つ27のテキスト・ツー・イメージモデルをトレーニングし、埋め込みの抽出方法、異なるLLMの変種、モデルサイズなど、テキスト・ツー・イメージ生成に影響を及ぼす可能性のあるLLMの重要な側面を分析する。
実験の結果, 最終層埋め込みを条件付けとして使用するというデファクトな手法は, 性能を低下させることがわかった。
代わりに、さまざまなレイヤからの埋め込みを調査し、すべてのレイヤにわたるレイヤ正規化平均化を使用することで、複雑なプロンプトとのアライメントが大幅に改善されることに気付きました。
この条件付きLPMはベースラインのT5モデルよりも優れており、高度な視覚言語推論技術の性能が向上している。
関連論文リスト
- Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。
我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-06T12:17:35Z) - HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-20T18:59:59Z) - Seeing Syntax: Uncovering Syntactic Learning Limitations in Vision-Language Models [18.87130615326443]
視覚言語モデル(VLM)は、画像キャプションとテキスト・ツー・イメージ生成の基礎モデルとして機能する。
近年の研究では、VLMテキストエンコーダ(特に構成性や意味理解など)の制限が強調されている。
論文 参考訳(メタデータ) (2024-12-11T05:37:04Z) - Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。
近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。
この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文 参考訳(メタデータ) (2024-12-04T07:26:44Z) - An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。
大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。
LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文 参考訳(メタデータ) (2024-05-21T16:35:02Z) - LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [52.16008431411513]
LASERは、チューニング不要のLCM駆動のアテンションコントロールフレームワークである。
テキスト条件付きイメージ・トゥ・アニメーションベンチマークを提案し,その有効性と有効性を検証する。
論文 参考訳(メタデータ) (2024-04-21T07:13:56Z) - LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.421335513040795]
大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。
LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
論文 参考訳(メタデータ) (2024-04-09T02:51:05Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。