論文の概要: Large Language Models are Universal Reasoners for Visual Generation
- arxiv url: http://arxiv.org/abs/2605.04040v1
- Date: Tue, 05 May 2026 17:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.075591
- Title: Large Language Models are Universal Reasoners for Visual Generation
- Title(参考訳): 大規模言語モデルはビジュアルジェネレーションのためのユニバーサル推論器である
- Authors: Sucheng Ren, Chen Chen, Zhenbang Wang, Liangchen Song, Xiangxin Zhu, Alan Yuille, Liang-Chieh Chen, Jiasen Lu,
- Abstract要約: We propose UniReasoner to close the understanding-generation gap in text-to-image generation。
我々はUniReasonerが同じ拡散バックボーンの下で構成的アライメントと意味的忠実性を改善することを示す。
- 参考スコア(独自算出の注目度): 30.240422733570366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation has advanced rapidly with diffusion models, progressing from CLIP and T5 conditioning to unified systems where a single LLM backbone handles both visual understanding and generation. Despite the architectural unification, these systems frequently fail to faithfully align complex prompts during synthesis, even though they remain highly accurate at verifying whether an image satisfies those same prompts. We formalize this as the \emph{understanding-generation gap} and propose UniReasoner, a framework that leverages the LLM as a universal reasoner to convert its understanding strength into direct generation guidance. Given a prompt, the LLM first produces a coarse visual draft composed of discrete vision tokens. It then performs a self-critique by evaluating the draft for prompt consistency, producing a grounded textual evaluation that pinpoints what needs to be corrected. Finally, a diffusion model is conditioned jointly on the prompt, the visual draft, and the evaluation, ensuring that generation is guided by explicit corrective signals. Each signal addresses a limitation of the other: the draft provides a concrete, scene-level anchor that reduces under-specification in text-only conditioning, while the evaluation turns verification into grounded, actionable constraints that correct omissions, hallucinations, and relational errors. Experiments show that UniReasoner improves compositional alignment and semantic faithfulness under the same diffusion backbone while maintaining image quality, demonstrating a practical way to exploit LLM reasoning to close the understanding-generation gap.
- Abstract(参考訳): テキスト・ツー・イメージ生成は拡散モデルによって急速に進歩し、CLIPとT5コンディショニングから単一のLLMバックボーンが視覚的理解と生成の両方を処理する統一システムへと進化した。
構造的な統一にもかかわらず、これらのシステムは合成中に複雑なプロンプトを忠実に整列させることができず、画像が同じプロンプトを満たすかどうかを精度良く検証する。
我々はこれをemph{understanding-generation gap}として形式化し、LLMを普遍的推論として活用し、その理解力を直接生成指導に変換するフレームワークであるUniReasonerを提案する。
プロンプトが与えられた後、LLMはまず、個別の視覚トークンからなる粗いビジュアルドラフトを生成する。
その後、即時一貫性のためのドラフトを評価することで自己批判を行い、修正すべきことをピンポイントする根拠付きテキスト評価を生成する。
最後に、プロンプト、ビジュアルドラフト、評価に対して拡散モデルを共同で条件付けし、明確な補正信号によって生成を誘導する。
各信号は他方の制限に対処する: ドラフトは、テキストのみの条件付けにおける過小評価を減らす具体的、シーンレベルのアンカーを提供する。
実験により、UniReasonerは画像品質を維持しながら、同じ拡散バックボーンの下で構成整合性と意味忠実性を向上し、LLM推論を利用して理解・生成ギャップを埋める実践的な方法を示す。
関連論文リスト
- Enhanced Text-to-Image Generation by Fine-grained Multimodal Reasoning [13.412268665909826]
きめ細かいマルチモーダル推論(FiMR)は、視覚的質問応答(VQA)を利用して、明確できめ細かいフィードバックを生成するフレームワークである。
FiMRは推論ベースの方法を含む画像生成ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-15T05:24:29Z) - Self-Corrected Image Generation with Explainable Latent Rewards [55.29175717238288]
我々は、説明可能なLatent RewarDを通じて生成をガイドする自己修正フレームワークであるxLARDを提案する。
xLARDは、モデル生成参照からの構造化されたフィードバックに基づいて遅延表現を洗練する軽量な修正器を導入している。
実験により、xLARDは、生成前の状態を維持しながら、意味的アライメントと視覚的忠実性を改善することが示された。
論文 参考訳(メタデータ) (2026-03-26T02:59:35Z) - Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders [46.79030733172859]
本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルのためのシンプソン・リライト(T2G)パラダイムを提案する。
推論に基づく画像生成と編集ベンチマークにより,現実の一貫性,セマンティックアライメント,視覚的リアリズムが大幅に改善された。
この結果は,推論,表現,実証能力を備えた次世代統一モデルに向けての有望な一歩となる。
論文 参考訳(メタデータ) (2026-01-15T12:19:05Z) - CoFi-Dec: Hallucination-Resistant Decoding via Coarse-to-Fine Generative Feedback in Large Vision-Language Models [14.570869250170139]
LVLM(Large Vision-Language Models)は、マルチモーダル理解と生成において顕著な進歩を遂げた。
CoFi-Decは、生成的自己フィードバックと粗い視覚条件を統合することで幻覚を緩和する、トレーニング不要なデコーディングフレームワークである。
実験により、CoFi-Decはエンティティレベルとセマンティックレベルの両方の幻覚を著しく減らし、既存の復号戦略より優れていることが示された。
論文 参考訳(メタデータ) (2025-12-29T13:23:20Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。