Fugu-MT 論文翻訳(概要): LVLM-Composer's Explicit Planning for Image Generation

論文の概要: LVLM-Composer's Explicit Planning for Image Generation

arxiv url: http://arxiv.org/abs/2507.04152v1
Date: Sat, 05 Jul 2025 20:21:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.043026
Title: LVLM-Composer's Explicit Planning for Image Generation
Title（参考訳）: 画像生成のためのLVLM-Composerの明示的計画
Authors: Spencer Ramsey, Jeffrey Lee, Amina Grant,
Abstract要約: LVLM-Composerは,合成画像の高機能化に特化して開発された新しい10ビリオンパラメータスケールLVLMである。提案手法は,構造化された即時分解のための階層的セマンティック計画モジュールと,生成時の正確な視覚誘導のための細粒度特徴アライメント機構を組み込んだ。 Gemini-2.0-Flash と InternVL3-78B による自動評価を利用した LongBench-T2I ベンチマークの実験では、LVLM-Composer が重要な構成次元にわたって優れた性能を示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The burgeoning field of generative artificial intelligence has fundamentally reshaped our approach to content creation, with Large Vision-Language Models (LVLMs) standing at its forefront. While current LVLMs have demonstrated impressive capabilities in text-to-image generation, they often falter when confronted with complex textual descriptions demanding precise compositional understanding and visual planning. This limitation particularly impacts the accurate rendering of multiple objects, their attributes, spatial relationships, and specific poses within intricate scenes, as evidenced by benchmarks like LongBench-T2I. To address these challenges, we introduce LVLM-Composer, a novel 10-billion parameter scale LVLM specifically engineered for enhanced compositional image synthesis. Our method incorporates a Hierarchical Semantic Planning Module for structured prompt decomposition and a Fine-Grained Feature Alignment Mechanism for precise visual guidance during generation. We propose a multi-stage training paradigm, featuring Hierarchical Semantic-Visual Grounding Pre-training and Compositional Planning Reinforcement Learning with Self-Correction, to instill robust compositional reasoning. Extensive experiments on the LongBench-T2I benchmark, utilizing automatic evaluation by Gemini-2.0-Flash and InternVL3-78B, demonstrate LVLM-Composer's superior performance across critical compositional dimensions including object accuracy, composition fidelity, and pose accuracy, significantly outperforming state-of-the-art baselines. An in-depth ablation study further validates the indispensable contribution of our proposed modules, while human evaluations confirm the perceptual superiority of our generated images. LVLM-Composer represents a significant step towards truly controllable and compositionally accurate open-ended text-to-image generation.
Abstract（参考訳）: 生成人工知能の急成長する分野は、私たちのコンテンツ創造に対するアプローチを根本的に変え、LVLM(Large Vision-Language Models)がその最前線に立っている。現在のLVLMはテキスト・画像生成において印象的な能力を示してきたが、正確な構成理解と視覚計画を必要とする複雑なテキスト記述に直面した時にしばしば混乱する。この制限は、LongBench-T2Iのようなベンチマークによって証明されたように、複雑なシーン内の複数のオブジェクトの正確なレンダリング、それらの属性、空間的関係、特定のポーズに特に影響を及ぼす。これらの課題に対処するために,合成画像の高機能化を目的とした新しい10ビリオンパラメータスケールLVLM-Composerを提案する。提案手法は,構造化された即時分解のための階層的セマンティック計画モジュールと,生成時の正確な視覚誘導のための細粒度特徴アライメント機構を組み込んだ。本稿では,階層型セマンティック・ビジュアル・グラウンド・プレトレーニングと自己補正による構成計画強化学習を取り入れた多段階学習パラダイムを提案する。 Gemini-2.0-Flash と InternVL3-78B による自動評価を利用して、LVLM-Composer のオブジェクトの精度、組成の忠実さ、ポーズの精度などの重要な構成次元における優れた性能を実証した。 in-deepth ablation studyでは、提案したモジュールの重要でない寄与を検証し、人間による評価では、生成した画像の知覚上の優位性を確認する。 LVLM-Composerは、真に制御可能で、構成的に正確なオープンエンドテキスト・ツー・イメージ生成に向けた重要なステップである。

関連論文リスト

Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval [15.126709823382539]
本研究は、人物表現学習のためのコントラスト言語画像事前学習(CLIP)を推進している。 MLLMのコンテキスト内学習機能を活用した耐雑音性データ構築パイプラインを開発した。我々はGA-DMSフレームワークを導入し、ノイズの多いテキストトークンを適応的にマスキングすることで、クロスモーダルアライメントを改善する。
論文参考訳（メタデータ） (2025-09-11T03:06:22Z)
LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation [1.124958340749622]
視覚言語モデル (LVLM) は、モーダルな理解と指示の追従において強力な能力を示した。 LumiGenは、T2Iモデルの性能を高めるために設計された新しいLVLM拡張反復フレームワークである。 LumiGenは平均スコア3.08で、最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-08-05T20:53:43Z)
Unlocking Compositional Control: Self-Supervision for LVLM-Based Image Generation [42.78181795494584]
テキストと画像の合成を大幅に進歩させるために設計された生成モデル。 Hi-SSLVLMは、ユニークな2段階の自己教師型学習戦略を通じて制限に対処する。実験では、すべてのきめ細かいメトリクスに対してHi-SSLVLMの優れたパフォーマンスを実証している。
論文参考訳（メタデータ） (2025-07-05T20:16:32Z)
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning [47.592351387052545]
GoT-R1は、視覚生成における意味空間推論を強化するために強化学習を適用するフレームワークである。本稿では,MLLMを用いた2段階多次元報酬フレームワークを提案する。実験の結果, T2I-CompBenchベンチマークで有意な改善が認められた。
論文参考訳（メタデータ） (2025-05-22T17:59:58Z)
CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文参考訳（メタデータ） (2025-05-16T12:23:58Z)
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。 RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文参考訳（メタデータ） (2024-12-30T13:16:08Z)
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models [19.054780489639793]
本稿では,プログレッシブ・マルチグラニュラー・ビジョン・ランゲージアライメント(PromViL)を紹介する。提案手法は, 単純な概念から複雑な概念まで, 多モードアライメントの階層構造を構築する。テキスト記述と対応する視覚領域を段階的に整合させることで,低レベルからの文脈情報を活用して高レベルな推論を行う。
論文参考訳（メタデータ） (2024-12-11T06:21:33Z)
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models [85.10375181040436]
本稿では,視覚言語モデルを包括的かつ正確に評価する新しい人間アノテーションベンチマークMMCOMPOSITIONを提案する。 GPT-4oのコンポジション性は,最も優れたオープンソースモデルよりも劣ることがわかった。
論文参考訳（メタデータ） (2024-10-13T05:35:09Z)
REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文参考訳（メタデータ） (2024-08-05T04:51:46Z)
In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文参考訳（メタデータ） (2024-07-22T09:03:29Z)
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model [108.42241250772643]
InternLM-XComposer2は自由形式のテキスト画像合成と理解に優れた視覚言語モデルである。このモデルは従来の視覚言語理解を超越し、多様な入力からインターリーブされたテキストイメージコンテンツを作成する。 InternLM2-7BをベースとしたInternLM-XComposer2の高画質長文マルチモーダルコンテンツにおける優位性を示す実験結果が得られた。
論文参考訳（メタデータ） (2024-01-29T18:59:02Z)
Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文参考訳（メタデータ） (2023-07-16T13:41:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。