論文の概要: M3: High-fidelity Text-to-Image Generation via Multi-Modal, Multi-Agent and Multi-Round Visual Reasoning
- arxiv url: http://arxiv.org/abs/2602.06166v1
- Date: Thu, 05 Feb 2026 20:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.09345
- Title: M3: High-fidelity Text-to-Image Generation via Multi-Modal, Multi-Agent and Multi-Round Visual Reasoning
- Title(参考訳): M3:マルチモーダル・マルチエージェント・マルチラウンドビジュアル推論による高忠実テキスト・画像生成
- Authors: Bangji Yang, Ruihan Guo, Jiajun Fan, Chaoran Cheng, Ge Liu,
- Abstract要約: 生成モデルはテキストと画像の合成において顕著な忠実さを達成しているが、複数の制約を含む複雑な構成的プロンプトに苦慮している。
textbfM3(Multi-Modal,Multi-Agent,Multi-Round)は、反復的推論時間改善によってこれらの障害を解決するトレーニング不要のフレームワークである。
私たちのQwen-Image+M3はImagen4 (0.515)やSeedream 3.0 (0.530)といった商用フラッグシップシステムを超え、最先端のパフォーマンス(0.532全体)に達しています。
- 参考スコア(独自算出の注目度): 17.674113208037955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have achieved impressive fidelity in text-to-image synthesis, yet struggle with complex compositional prompts involving multiple constraints. We introduce \textbf{M3 (Multi-Modal, Multi-Agent, Multi-Round)}, a training-free framework that systematically resolves these failures through iterative inference-time refinement. M3 orchestrates off-the-shelf foundation models in a robust multi-agent loop: a Planner decomposes prompts into verifiable checklists, while specialized Checker, Refiner, and Editor agents surgically correct constraints one at a time, with a Verifier ensuring monotonic improvement. Applied to open-source models, M3 achieves remarkable results on the challenging OneIG-EN benchmark, with our Qwen-Image+M3 surpassing commercial flagship systems including Imagen4 (0.515) and Seedream 3.0 (0.530), reaching state-of-the-art performance (0.532 overall). This demonstrates that intelligent multi-agent reasoning can elevate open-source models beyond proprietary alternatives. M3 also substantially improves GenEval compositional metrics, effectively doubling spatial reasoning performance on hardened test sets. As a plug-and-play module compatible with any pre-trained T2I model, M3 establishes a new paradigm for compositional generation without costly retraining.
- Abstract(参考訳): 生成モデルはテキストと画像の合成において顕著な忠実さを達成しているが、複数の制約を含む複雑な構成的プロンプトに苦慮している。
我々は、反復的推論時間改善によってこれらの障害を体系的に解決する、トレーニング不要のフレームワークである \textbf{M3 (Multi-Modal, Multi-Agent, Multi-Round)} を紹介する。
Plannerはプロンプトを検証可能なチェックリストに分解し、特別なチェッカー、リファイナ、エディターエージェントは、モノトニック改善を保証するVerifierを使って、一度に1つの制約を外科的に修正する。
私たちのQwen-Image+M3はImagen4 (0.515)やSeedream 3.0 (0.530)といった商用フラッグシップシステムを超え、最先端のパフォーマンス(0.532全体)に達しています。
これは、インテリジェントなマルチエージェント推論が、プロプライエタリな代替手段を超えて、オープンソースモデルを高めることができることを示している。
また、M3はGenEvalの構成基準を大幅に改善し、強化されたテストセット上での空間推論性能を効果的に倍増させる。
プリトレーニング済みのT2Iモデルと互換性のあるプラグイン・アンド・プレイモジュールとして、M3はコストのかかる再トレーニングなしに構成生成のための新しいパラダイムを確立する。
関連論文リスト
- MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation [20.14002849273559]
統一マルチモーダルモデルは、単一のフレームワーク内で理解と生成を統合することを目的としている。
本稿では,自己回帰拡散(AR-Diffusion)フレームワークであるMammothModa2(Mammoth2)を紹介する。
Mammoth2は、公開ベンチマークで強力なテキスト・ツー・イメージと命令ベースの編集性能を提供する。
論文 参考訳(メタデータ) (2025-11-23T03:25:39Z) - TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments [30.078263383249862]
Toucanは、これまでで最大規模のツール・アジェンティックデータセットである。
多様な、現実的で、挑戦的なタスクを、実際のツールの実行を含む軌道で生成します。
論文 参考訳(メタデータ) (2025-10-01T17:58:03Z) - LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer [32.9330637921386]
LAMICはレイアウト対応のマルチイメージコンポジションフレームワークである。
単一の参照拡散モデルをトレーニング不要な方法でマルチ参照シナリオに拡張する。
ID-S、BG-S、IN-R、AVGのスコアにおいて、既存のマルチ参照ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-01T09:51:54Z) - MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning [54.47710436807661]
MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
論文 参考訳(メタデータ) (2025-06-05T19:12:45Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine [10.774128925670183]
マルチモーダルレゴ(MM-Lego)は、あらゆるエンコーダを最小限の微調整なしで競争力のあるマルチモーダルモデルに変換する汎用的な融合フレームワークである。
本研究では, MM-Legoをモデルマージ法として用いることで, 微調整を伴わずに, エンドツーエンド融合モデルとの競合性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-05-30T11:14:01Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。