論文の概要: LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation
- arxiv url: http://arxiv.org/abs/2502.18302v1
- Date: Tue, 25 Feb 2025 15:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:09.755915
- Title: LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation
- Title(参考訳): LDGen:大規模言語モデル駆動型言語表現によるテキスト・画像合成の強化
- Authors: Pengzhi Li, Pengfei Yu, Zide Liu, Wei He, Xuhao Pan, Xudong Rao, Tao Wei, Wei Chen,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を既存のテキスト・画像拡散モデルに統合する新しい手法であるLDGenを紹介する。
提案手法では,階層的なキャプション最適化とヒューマンインストラクション技術を用いて,正確な意味情報を導出する言語表現戦略を採用している。
- 参考スコア(独自算出の注目度): 14.877355149519198
- License:
- Abstract: In this paper, we introduce LDGen, a novel method for integrating large language models (LLMs) into existing text-to-image diffusion models while minimizing computational demands. Traditional text encoders, such as CLIP and T5, exhibit limitations in multilingual processing, hindering image generation across diverse languages. We address these challenges by leveraging the advanced capabilities of LLMs. Our approach employs a language representation strategy that applies hierarchical caption optimization and human instruction techniques to derive precise semantic information,. Subsequently, we incorporate a lightweight adapter and a cross-modal refiner to facilitate efficient feature alignment and interaction between LLMs and image features. LDGen reduces training time and enables zero-shot multilingual image generation. Experimental results indicate that our method surpasses baseline models in both prompt adherence and image aesthetic quality, while seamlessly supporting multiple languages. Project page: https://zrealli.github.io/LDGen.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を既存のテキスト・画像拡散モデルに統合し,計算要求を最小化するLDGenを紹介する。
CLIPやT5といった従来のテキストエンコーダは多言語処理に制限があり、多様な言語で画像生成を妨げる。
LLMの高度な能力を活用することで、これらの課題に対処する。
提案手法では,階層的なキャプション最適化とヒューマンインストラクション技術を用いて,正確な意味情報を導出する言語表現戦略を採用している。
その後,軽量アダプタとクロスモーダルリファインダを組み込んで,LCMと画像特徴の効率的なアライメントと相互作用を容易にする。
LDGenはトレーニング時間を短縮し、ゼロショット多言語画像生成を可能にする。
実験結果から,本手法は複数の言語をシームレスにサポートしながら,即効性および画像美的品質の両面でベースラインモデルを上回ることが示唆された。
プロジェクトページ: https://zrealli.github.io/LDGen。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。
大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。
LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文 参考訳(メタデータ) (2024-05-21T16:35:02Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens [22.802963850131306]
生成ボケンの概念を主軸とした,新たなインターリーブ型視覚・言語生成手法を提案する。
本手法は,記述自由なマルチモーダル生成のためのユニークな2段階学習戦略によって特徴付けられる。
我々のモデルであるMiniGPT-5は、マルチモーダル生成データセットのベースラインモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-03T17:49:04Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。