論文の概要: Enhanced Text-to-Image Generation by Fine-grained Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2604.13491v2
- Date: Thu, 16 Apr 2026 04:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.195692
- Title: Enhanced Text-to-Image Generation by Fine-grained Multimodal Reasoning
- Title(参考訳): 微細マルチモーダル推論によるテキスト・ツー・イメージ生成の高速化
- Authors: Yongjin Kim, Yoonjin Oh, Yerin Kim, Hyomin Kim, Jeeyoung Yun, Yujung Heo, Minjun Kim, Sungwoong Kim,
- Abstract要約: きめ細かいマルチモーダル推論(FiMR)は、視覚的質問応答(VQA)を利用して、明確できめ細かいフィードバックを生成するフレームワークである。
FiMRは推論ベースの方法を含む画像生成ベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 13.412268665909826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid progress of Multimodal Large Language Models (MLLMs), unified MLLMs that jointly perform image understanding and generation have advanced significantly. However, despite the inherent reasoning capabilities of unified MLLMs for self-reflection and self-refinement, their use in text-to-image generation remains largely underexplored. Meanwhile, existing multimodal reasoning-based image generation methods mostly rely on holistic image-text alignment judgments, without fine-grained reflection and refinement of detailed prompt attributes, leading to limited fine-grained control. Therefore, we propose Fine-grained Multimodal Reasoning (FiMR), a framework that leverages decomposed visual question answering (VQA) to break down an input prompt into minimal semantic units-such as entities and attributes-and verify each unit via VQA to generate explicit, fine-grained feedback. Based on this feedback, FiMR then applies targeted, localized refinements. This fine-grained self-reasoning and self-refinement enable MLLMs to achieve more precise improvements in image-prompt alignment and overall generation quality at test time. Extensive experiments demonstrate that FiMR consistently outperforms image generation baselines, including reasoning-based methods, particularly on compositional text-to-image benchmarks. The code and models are available at https://github.com/KU-AGI/FiMR
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩に伴い、画像理解と生成を共同で行う統合MLLMが大幅に進歩した。
しかし、自己回帰と自己縮小のための統合MLLMの固有の推論能力にもかかわらず、テキスト・ツー・イメージ生成におけるそれらの使用は、大半は未解明のままである。
一方、既存のマルチモーダル推論に基づく画像生成法は、主に全体論的画像テキストアライメントの判断に依存しており、細かな反射や詳細なプロンプト属性の精細化を伴わないため、きめ細かな制御が限られている。
そこで我々は,分解された視覚的質問応答(VQA)を利用して,入力プロンプトを最小の意味単位(エンティティや属性など)に分解し,各ユニットをVQA経由で検証し,明示的できめ細かいフィードバックを生成するフレームワークであるFiMRを提案する。
このフィードバックに基づいて、FiMRはターゲットとなるローカライズされた改善を施す。
この微細な自己整合と自己整合により、MLLMはテスト時のイメージプロンプトアライメントと全体的な生成品質をより正確に向上することができる。
大規模な実験により、FiMRは推論に基づく手法、特にコンポジションテキスト・ツー・イメージのベンチマークなど、画像生成ベースラインを一貫して上回っていることが示されている。
コードとモデルはhttps://github.com/KU-AGI/FiMRで公開されている。
関連論文リスト
- MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval [23.52156477012636]
Composed Image Retrieval (CIR) は、参照画像と修正されたテキストに基づいてターゲット画像を取得することを目的としている。
CIRのためのMCoT-MVS(Multi-level Vision Selection)を提案する。
論文 参考訳(メタデータ) (2026-03-18T04:49:19Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning [75.76032840813828]
我々は,画像とテキストを結合的に関連づけるテストタイム手法MILRを提案する。
統合マルチモーダル理解・生成フレームワーク内でMILRをインスタンス化する。
我々は、GenEval、T2I-CompBench、WISE上でMILRを評価し、すべてのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-09-26T14:06:10Z) - MM-R1: Unleashing the Power of Unified Multimodal Large Language Models for Personalized Image Generation [15.148267809916002]
画像生成のための統一MLLMの本質的なポテンシャルを解き放つために、X-CoT(cross-modal Chain-of-Thought)推論戦略を統合するフレームワークであるMM-R1を紹介する。
具体的には、パーソナライズを統合的な視覚的推論と生成プロセスとして構成する。
実験により,MM-R1はMLLMのパーソナライズ能力を解き放ち,高い被写体忠実度と強いテキストアライメントを有する画像を生成することを示した。
論文 参考訳(メタデータ) (2025-08-15T12:20:27Z) - Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。