論文の概要: Unlocking Compositional Control: Self-Supervision for LVLM-Based Image Generation
- arxiv url: http://arxiv.org/abs/2507.04151v1
- Date: Sat, 05 Jul 2025 20:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.042152
- Title: Unlocking Compositional Control: Self-Supervision for LVLM-Based Image Generation
- Title(参考訳): アンロック構成制御:LVLM画像生成のためのセルフスーパービジョン
- Authors: Fernando Gabriela Garcia, Spencer Burns, Ryan Shaw, Hunter Young,
- Abstract要約: テキストと画像の合成を大幅に進歩させるために設計された生成モデル。
Hi-SSLVLMは、ユニークな2段階の自己教師型学習戦略を通じて制限に対処する。
実験では、すべてのきめ細かいメトリクスに対してHi-SSLVLMの優れたパフォーマンスを実証している。
- 参考スコア(独自算出の注目度): 42.78181795494584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Hierarchical Self-Supervised LVLM (Hi-SSLVLM), a novel generative model designed to significantly advance text-to-image synthesis, particularly for complex and compositionally challenging prompts. Traditional methods often grapple with the high cost of meticulously curated paired image-text datasets and struggle with precise control over fine-grained visual attributes and intricate spatial relationships. Our Hi-SSLVLM addresses these limitations through a unique two-stage self-supervised learning strategy. The first stage, Multi-Granularity Visual-Language Grounding, enables the Large Vision-Language Model (LVLM) backbone to autonomously generate and align hierarchical captions (global and local) to images, cultivating a deep internal semantic understanding without reliance on extensive human annotation. The second stage, Self-Refinement and Guided Image Generation, leverages this acquired knowledge by an Internal Compositional Planning (ICP) mechanism, where the LVLM first formulates detailed textual sub-prompts to guide the image generation process, complemented by a novel Semantic Consistency Loss for precise output alignment. Comprehensive experiments against leading baselines, including Janus-Pro-1B, Stable Diffusion XL 1.0, DeepFloyd IF v1.0, and ControlNet-XL, on multi-dimensional benchmarks such as Gemini-2.0-Flash and InternVL3-78B, demonstrate Hi-SSLVLM's superior performance across all fine-grained metrics. An in-depth ablation study confirms the critical role of each proposed component. Furthermore, human evaluations corroborate our quantitative findings, highlighting Hi-SSLVLM's enhanced fidelity to prompt, compositional accuracy, and overall aesthetic quality, marking a significant step towards more controllable and semantically consistent open-ended text-to-image generation.
- Abstract(参考訳): 本稿では,特に複雑かつ構成的に困難なプロンプトに対して,テキストと画像の合成を著しく向上させる新しい生成モデルであるHi-SSLVLMを紹介する。
従来の手法は、厳密にキュレートされたペア画像テキストデータセットのコストが高く、きめ細かい視覚特性や複雑な空間関係の正確な制御に苦慮することが多い。
われわれのHi-SSLVLMは、2段階の自己教師型学習戦略によってこれらの制限に対処する。
第1段階であるMulti-Granularity Visual-Language Groundingでは、LVLM(Large Vision-Language Model)バックボーンによって、画像に階層的なキャプション(グローバルとローカル)を自動生成およびアライメントし、広範囲な人間のアノテーションに頼ることなく深い内部意味理解を育むことができる。
第2段階である自己補正とガイド画像生成は、内部構成計画(ICP)機構によって取得した知識を活用し、LVLMはまず詳細なテキストサブプロンプトを定式化し、画像生成プロセスをガイドし、新しいセマンティック一貫性損失を補足して正確な出力アライメントを行う。
Janus-Pro-1B、Stable Diffusion XL 1.0、DeepFloyd IF v1.0、ControlNet-XLといった主要なベースラインに対する総合的な実験は、Gemini-2.0-FlashやInternVL3-78Bのような多次元ベンチマークにおいて、すべての詳細なメトリクスに対してHi-SSLVLMの優れた性能を示している。
深部アブレーション研究は、提案される各成分の臨界的役割を裏付けるものである。
さらに、人間の評価は、Hi-SSLVLMの強化された忠実さを刺激し、構成精度と全体的な美的品質を強調し、より制御しやすく、セマンティックに整合したオープンエンドテキスト・ツー・イメージ生成に向けた重要なステップを示す。
関連論文リスト
- LVLM-Composer's Explicit Planning for Image Generation [0.0]
LVLM-Composerは,合成画像の高機能化に特化して開発された新しい10ビリオンパラメータスケールLVLMである。
提案手法は,構造化された即時分解のための階層的セマンティック計画モジュールと,生成時の正確な視覚誘導のための細粒度特徴アライメント機構を組み込んだ。
Gemini-2.0-Flash と InternVL3-78B による自動評価を利用した LongBench-T2I ベンチマークの実験では、LVLM-Composer が重要な構成次元にわたって優れた性能を示した。
論文 参考訳(メタデータ) (2025-07-05T20:21:03Z) - CoMemo: LVLMs Need Image Context with Image Memory [51.681858871027345]
CoMemoは、Contextイメージパスとイメージメモリパスを組み合わせてビジュアル処理を行うデュアルパスアーキテクチャである。
2次元空間認識を維持するためにサムネイルに基づく位置アグリゲーションを利用する新しい位置符号化機構であるRoPE-DHRを導入する。
論文 参考訳(メタデータ) (2025-06-06T17:59:06Z) - Hierarchical Vision-Language Alignment for Text-to-Image Generation via Diffusion Models [0.7366405857677226]
Vision-Language Aligned Diffusion(VLAD)モデルは、デュアルストリーム戦略を通じて課題に対処する生成フレームワークである。
VLADはテキストプロンプトをグローバルおよびローカルな表現に分解し、視覚的特徴と正確に一致させる。
高忠実度画像を生成するための階層的ガイダンスを備えた多段階拡散プロセスが組み込まれている。
論文 参考訳(メタデータ) (2025-01-01T18:27:13Z) - STAR: Scale-wise Text-conditioned AutoRegressive image generation [38.98271279816512]
本稿では,スケールワイド自動回帰パラダイムを用いたテキスト・ツー・イメージ・モデルSTARを紹介する。
STARは、最大1024$times$1024までのテキスト駆動画像生成を可能にする。
論文 参考訳(メタデータ) (2024-06-16T03:45:45Z) - InternLM-XComposer2: Mastering Free-form Text-Image Composition and
Comprehension in Vision-Language Large Model [108.42241250772643]
InternLM-XComposer2は自由形式のテキスト画像合成と理解に優れた視覚言語モデルである。
このモデルは従来の視覚言語理解を超越し、多様な入力からインターリーブされたテキストイメージコンテンツを作成する。
InternLM2-7BをベースとしたInternLM-XComposer2の高画質長文マルチモーダルコンテンツにおける優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-01-29T18:59:02Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。