論文の概要: StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision
- arxiv url: http://arxiv.org/abs/2603.06032v1
- Date: Fri, 06 Mar 2026 08:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.386842
- Title: StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision
- Title(参考訳): StruVis: 構造化ビジョンによる思考による推論に基づくテキスト・ツー・イメージ生成の強化
- Authors: Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu,
- Abstract要約: Reasoning-based text-to-image (T2I) 生成は複雑なプロンプトを正確に解釈するモデルを必要とする。
我々は、StruVisを提案する。StruVisは、Thinking with Structured Visionを通じてT2I生成を強化する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 44.66707038603288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning-based text-to-image (T2I) generation requires models to interpret complex prompts accurately. Existing reasoning frameworks can be broadly categorized into two types: (1) Text-Only Reasoning, which is computationally efficient but lacks access to visual context, often resulting in the omission of critical spatial and visual elements; and (2) Text-Image Interleaved Reasoning, which leverages a T2I generator to provide visual references during the reasoning process. While this approach enhances visual grounding, it incurs substantial computational costs and constrains the reasoning capacity of MLLMs to the representational limitations of the generator. To this end, we propose StruVis, a novel framework that enhances T2I generation through Thinking with Structured Vision. Instead of relying on intermediate image generation, StruVis employs text-based structured visual representations as intermediate reasoning states, thereby enabling the MLLM to effectively "perceive" visual structure within a purely text-based reasoning process. Powered by this, the reasoning potential for T2I generation of the MLLM is unlocked through structured-vision-guided reasoning. Additionally, as a generator-agnostic reasoning framework, our proposed StruVis can be seamlessly integrated with diverse T2I generators and efficiently enhance their performance in reasoning-based T2I generation. Extensive experiments demonstrate that StruVis achieves significant performance improvements on reasoning-based T2I benchmarks, e.g., a 4.61% gain on T2I-ReasonBench and a 4% gain on WISE.
- Abstract(参考訳): Reasoning-based text-to-image (T2I) 生成は複雑なプロンプトを正確に解釈するモデルを必要とする。
既存の推論フレームワークは,(1)計算効率が良く視覚的コンテキストへのアクセスが不十分なテキストオンリー推論,(2)推論プロセス中にT2Iジェネレータを利用して視覚的参照を提供するテキストイメージインターリーブ推論,の2種類に分類される。
このアプローチは視覚的接地性を高めるが、かなりの計算コストがかかり、MLLMの推論能力はジェネレータの表現的制限に制限される。
そこで我々は,Thinking with Structured Visionを通じてT2I生成を促進する新しいフレームワークであるStruVisを提案する。
中間画像生成に頼る代わりに、StruVisはテキストベースの構造化された視覚表現を中間推論状態として使用することにより、MLLMは純粋にテキストベースの推論プロセス内で視覚構造を効果的に"知覚する"ことができる。
これにより、MLLMのT2I生成の推論ポテンシャルは、構造化された視覚誘導推論によって解放される。
さらに, ジェネレータに依存しない推論フレームワークとして, 提案するStruVisを多種多様なT2Iジェネレータとシームレスに統合し, 推論に基づくT2Iジェネレータの性能を効率的に向上させることができる。
大規模な実験により、StruVisは推論ベースのT2Iベンチマークにおいて、T2I-ReasonBenchで4.61%、WISEで4%の大幅なパフォーマンス向上を達成した。
関連論文リスト
- AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models [58.85362281293525]
本稿では、アクション中心のプロンプトから画像を生成する際のT2Iモデルの性能を評価するためのベンチマークであるAcT2Iを紹介する。
我々は、先行するT2IモデルがAcT2Iにうまく対応していないことを実験的に検証した。
我々は,この制限に対処するために,大規模言語モデルを用いた訓練不要の知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2025-09-19T16:41:39Z) - Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation [1.124958340749622]
視覚言語モデル (LVLM) は、モーダルな理解と指示の追従において強力な能力を示した。
LumiGenは、T2Iモデルの性能を高めるために設計された新しいLVLM拡張反復フレームワークである。
LumiGenは平均スコア3.08で、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-08-05T20:53:43Z) - Can Generated Images Serve as a Viable Modality for Text-Centric Multimodal Learning? [3.966028515034415]
本研究は,テキスト・トゥ・イメージ(T2I)モデルにより生成した画像が,テキスト中心のタスクにおいて重要な相補的モダリティとして機能するかどうかを体系的に検討する。
論文 参考訳(メタデータ) (2025-06-21T07:32:09Z) - GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning [47.592351387052545]
GoT-R1は、視覚生成における意味空間推論を強化するために強化学習を適用するフレームワークである。
本稿では,MLLMを用いた2段階多次元報酬フレームワークを提案する。
実験の結果, T2I-CompBenchベンチマークで有意な改善が認められた。
論文 参考訳(メタデータ) (2025-05-22T17:59:58Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。