論文の概要: MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning
- arxiv url: http://arxiv.org/abs/2509.22761v1
- Date: Fri, 26 Sep 2025 14:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.861939
- Title: MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning
- Title(参考訳): MILR:テスト時間遅延推論によるマルチモーダル画像生成の改善
- Authors: Yapeng Mi, Hengli Li, Yanpeng Zhao, Chenxi Li, Huimin Wu, Xiaojian Ma, Song-Chun Zhu, Ying Nian Wu, Qing Li,
- Abstract要約: 我々は,画像とテキストを結合的に関連づけるテストタイム手法MILRを提案する。
統合マルチモーダル理解・生成フレームワーク内でMILRをインスタンス化する。
我々は、GenEval、T2I-CompBench、WISE上でMILRを評価し、すべてのベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 75.76032840813828
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reasoning-augmented machine learning systems have shown improved performance in various domains, including image generation. However, existing reasoning-based methods for image generation either restrict reasoning to a single modality (image or text) or rely on high-quality reasoning data for fine-tuning. To tackle these limitations, we propose MILR, a test-time method that jointly reasons over image and text in a unified latent vector space. Reasoning in MILR is performed by searching through vector representations of discrete image and text tokens. Practically, this is implemented via the policy gradient method, guided by an image quality critic. We instantiate MILR within the unified multimodal understanding and generation (MUG) framework that natively supports language reasoning before image synthesis and thus facilitates cross-modal reasoning. The intermediate model outputs, which are to be optimized, serve as the unified latent space, enabling MILR to operate entirely at test time. We evaluate MILR on GenEval, T2I-CompBench, and WISE, achieving state-of-the-art results on all benchmarks. Notably, on knowledge-intensive WISE, MILR attains an overall score of 0.63, improving over the baseline by 80%. Our further analysis indicates that joint reasoning in the unified latent space is the key to its strong performance. Moreover, our qualitative studies reveal MILR's non-trivial ability in temporal and cultural reasoning, highlighting the efficacy of our reasoning method.
- Abstract(参考訳): Reasoning-augmented machine learning system は、画像生成を含む様々な領域において、改善された性能を示す。
しかし、画像生成のための既存の推論ベースの手法は、単一のモダリティ(画像やテキスト)への推論を制限するか、あるいは微調整のための高品質な推論データに依存する。
これらの制約に対処するため,画像とテキストを結合した潜在ベクトル空間におけるテスト時間法であるMILRを提案する。
MILRの推論は、離散画像とテキストトークンのベクトル表現を通して行われる。
実際には、この手法は、画像品質の批判者によって導かれるポリシー勾配法によって実装されている。
我々は、画像合成の前に言語推論をネイティブにサポートする統合マルチモーダル理解・生成(MUG)フレームワーク内でMILRをインスタンス化し、それによってクロスモーダル推論を容易にする。
中間モデル出力は最適化され、統一された潜在空間として機能し、MILRはテスト時に完全に動作する。
我々は、GenEval、T2I-CompBench、WISE上でMILRを評価し、すべてのベンチマークで最先端の結果を得る。
特に知識集約型WISEでは、MILRは0.63のスコアを獲得し、ベースラインよりも80%向上している。
我々のさらなる分析は、統一潜在空間における結合推論が、その強い性能の鍵であることを示唆している。
さらに, 時間的・文化的推論におけるMILRの非自明な能力を明らかにするとともに, 推論手法の有効性を明らかにする。
関連論文リスト
- MIRG-RL: Multi-Image Reasoning and Grounding with Reinforcement Learning [10.049259114211663]
現在、LVLM(Large Visual Language Models)は2つの重要な課題に直面している。
強化学習によるマルチイメージ推論とグラウンド化(MIRG-RL)の統一フレームワークを提案する。
具体的には、教師付き微調整と注釈付き軌跡と画像認識強化学習最適化を組み合わせた2段階の訓練パラダイムを提案する。
論文 参考訳(メタデータ) (2025-09-26T02:43:22Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Chain-of-Thought Re-ranking for Image Retrieval Tasks [16.13448876168839]
そこで我々は,画像検索に対処する新しいChain-of-Thought Re-Ranking(CoTRR)手法を提案する。
MLLMがリストワイズ推論を行えるようにすることで,グローバル比較,一貫した推論,解釈可能な意思決定をサポートする。
提案手法は,テキスト・トゥ・イメージ検索(TIR),合成画像検索(CIR),チャットベースの画像検索(Chat-IR)など,3つの画像検索タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-18T08:48:46Z) - MiraGe: Multimodal Discriminative Representation Learning for Generalizable AI-Generated Image Detection [32.662682253295486]
一般化可能なAI生成画像検出のためのマルチモーダル識別学習(MiraGegenerator)を提案する。
テキスト埋め込みをセマンティックアンカーとして活用し、効果的な識別的表現学習を実現するために、マルチモーダル・プロンプト・ラーニングを適用した。
MiraGegeneratorは最先端のパフォーマンスを実現し、Soraのような目に見えないジェネレータに対してさえ堅牢性を維持している。
論文 参考訳(メタデータ) (2025-08-03T00:19:18Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - MINT: Multi-modal Chain of Thought in Unified Generative Models for Enhanced Image Generation [38.517814177255765]
画像生成の強化のために,MINTを導入し,マルチモーダル・シンキング・オブ・シンキング (MCoT) を生かした,革新的統一的生成モデルを提案する。
本稿では,MCoT学習パラダイムを提案する。このパラダイムは,画像生成に特化して設計されたマルチモーダル思考,推論,リフレクションに対するステップバイステップアプローチである。
MINTは、テキスト・トゥ・イメージ(T2I)と画像・トゥ・テキスト(I2T)タスクの複数のベンチマークで優れたパフォーマンスを示すことが検証されている。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。