論文の概要: LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2508.04732v1
- Date: Tue, 05 Aug 2025 20:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.578286
- Title: LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation
- Title(参考訳): LumiGen: 微細テキスト・画像生成のためのLVLM強化反復フレームワーク
- Authors: Xiaoqi Dong, Xiangyu Zhou, Nicholas Evans, Yujia Lin,
- Abstract要約: 視覚言語モデル (LVLM) は、モーダルな理解と指示の追従において強力な能力を示した。
LumiGenは、T2Iモデルの性能を高めるために設計された新しいLVLM拡張反復フレームワークである。
LumiGenは平均スコア3.08で、最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 1.124958340749622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) generation has made significant advancements with diffusion models, yet challenges persist in handling complex instructions, ensuring fine-grained content control, and maintaining deep semantic consistency. Existing T2I models often struggle with tasks like accurate text rendering, precise pose generation, or intricate compositional coherence. Concurrently, Vision-Language Models (LVLMs) have demonstrated powerful capabilities in cross-modal understanding and instruction following. We propose LumiGen, a novel LVLM-enhanced iterative framework designed to elevate T2I model performance, particularly in areas requiring fine-grained control, through a closed-loop, LVLM-driven feedback mechanism. LumiGen comprises an Intelligent Prompt Parsing & Augmentation (IPPA) module for proactive prompt enhancement and an Iterative Visual Feedback & Refinement (IVFR) module, which acts as a "visual critic" to iteratively correct and optimize generated images. Evaluated on the challenging LongBench-T2I Benchmark, LumiGen achieves a superior average score of 3.08, outperforming state-of-the-art baselines. Notably, our framework demonstrates significant improvements in critical dimensions such as text rendering and pose expression, validating the effectiveness of LVLM integration for more controllable and higher-quality image generation.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成は拡散モデルにおいて大きな進歩を遂げているが、複雑な命令の処理、きめ細かいコンテンツ制御の確保、深いセマンティック一貫性の維持に課題が続いている。
既存のT2Iモデルは、正確なテキストレンダリング、正確なポーズ生成、複雑な合成コヒーレンスといったタスクに苦労することが多い。
同時に、視覚言語モデル (LVLM) は、モーダル間の理解と指示の追従において強力な能力を示した。
本稿では,T2Iモデルの性能向上を目的としたLumiGenを提案する。
LumiGenは、プロアクティブプロンプトエンハンスメントのためのIntelligent Prompt Parsing & Augmentation (IPPA)モジュールと、生成した画像を反復的に修正し最適化するための"視覚的批判"として機能するIterative Visual Feedback & Refinement (IVFR)モジュールで構成されている。
挑戦的なLongBench-T2Iベンチマークに基づいて、LumiGenはより優れた平均スコア3.08を達成し、最先端のベースラインを上回っている。
特に,本フレームワークは,テキストレンダリングやポーズ表現などの重要な領域において,より制御性が高く高品質な画像生成のためのLVLM統合の有効性を検証した。
関連論文リスト
- LVLM-Composer's Explicit Planning for Image Generation [0.0]
LVLM-Composerは,合成画像の高機能化に特化して開発された新しい10ビリオンパラメータスケールLVLMである。
提案手法は,構造化された即時分解のための階層的セマンティック計画モジュールと,生成時の正確な視覚誘導のための細粒度特徴アライメント機構を組み込んだ。
Gemini-2.0-Flash と InternVL3-78B による自動評価を利用した LongBench-T2I ベンチマークの実験では、LVLM-Composer が重要な構成次元にわたって優れた性能を示した。
論文 参考訳(メタデータ) (2025-07-05T20:21:03Z) - Unlocking Compositional Control: Self-Supervision for LVLM-Based Image Generation [42.78181795494584]
テキストと画像の合成を大幅に進歩させるために設計された生成モデル。
Hi-SSLVLMは、ユニークな2段階の自己教師型学習戦略を通じて制限に対処する。
実験では、すべてのきめ細かいメトリクスに対してHi-SSLVLMの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-07-05T20:16:32Z) - Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。
現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。
我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning [47.592351387052545]
GoT-R1は、視覚生成における意味空間推論を強化するために強化学習を適用するフレームワークである。
本稿では,MLLMを用いた2段階多次元報酬フレームワークを提案する。
実験の結果, T2I-CompBenchベンチマークで有意な改善が認められた。
論文 参考訳(メタデータ) (2025-05-22T17:59:58Z) - ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:45:00Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Modality-Specialized Synergizers for Interleaved Vision-Language Generalists [45.800383191637785]
ビジョンランゲージ・ジェネリスト(VLG)は、テキストと画像の両方を理解し、生成することができる。
1つの主な制限は、個別のテキストトークンと連続した画像の特徴を同時にモデル化するために、統一アーキテクチャと同じパラメータセットを適用することである。
最近の研究は、モダリティを意識したエキスパートモデルを導入することで、この問題に対処しようとしている。
本稿では,既存のVLGの統一アーキテクチャを効率的に最適化する新しい設計であるMODALITY-SPECIALIZED SynERGIZERS (MOSS)を紹介する。
論文 参考訳(メタデータ) (2024-07-04T03:28:22Z) - Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT [120.39362661689333]
本稿では,Lumina-T2Xの改良版を提案する。
これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
論文 参考訳(メタデータ) (2024-06-05T17:53:26Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。