論文の概要: Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis
- arxiv url: http://arxiv.org/abs/2603.29620v2
- Date: Wed, 01 Apr 2026 09:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.6259
- Title: Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis
- Title(参考訳): Unify-Agent:World-Grounded Image Synthesisのための統一マルチモーダルエージェント
- Authors: Shuang Chen, Quanxin Shou, Hangting Chen, Yucheng Zhou, Kaituo Feng, Wenbo Hu, Yi-Fan Zhang, Yunlong Lin, Wenxuan Huang, Mingyang Song, Dasen Dai, Bolin Jiang, Manyuan Zhang, Shi-Xue Zhang, Zhengkai Jiang, Lucas Wang, Zhao Zhong, Yu Cheng, Nanyun Peng,
- Abstract要約: 我々は,ワールドグラウンド画像合成のための統一マルチモーダルエージェントUnify-Agentを提案する。
我々の研究は、信頼できるオープンワールドのエージェント画像合成のための密結合推論、探索、生成の価値を強調している。
- 参考スコア(独自算出の注目度): 63.90531780363577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.
- Abstract(参考訳): 統一マルチモーダルモデルは、高品質な画像を生成しながら、多様で複雑な現実世界の知識を理解するための自然で有望なアーキテクチャを提供する。
しかし、これらは主に凍結したパラメトリックな知識に依存しており、長い尾と知識集約的な概念を含む現実世界の画像生成に苦戦している。
実世界のタスクにおけるエージェントの広範な成功にインスパイアされた我々は、この制限に対処するためのエージェントモデリングを探求する。
具体的には、画像生成を即時理解、マルチモーダルエビデンス探索、グラウンドド・リキャプション、最終合成からなるエージェントパイプラインとして再構成する、ワールドグラウンド画像合成のための統合マルチモーダルエージェントUnify-Agentを提案する。
本モデルでは,マルチモーダルなデータパイプラインを構築し,ワールドグラウンド画像合成のための143Kの高品質なエージェントトラジェクトリをキュレートし,エージェント生成プロセス全体を効果的に監視する。
さらに、文化的に重要な12のカテゴリをカバーするベンチマークであるFactIPについても紹介する。
広汎な実験により,提案したUnify-Agentは,多様なベンチマークや実世界のタスクにまたがる基本統一モデルよりも大幅に改善され,最強のクローズドソースモデルの世界知識能力に近づいた。
筆者らは,ワールドグラウンド画像合成のためのエージェント・ベース・モデリングの早期研究として,信頼性の高いオープンワールド・エージェント画像合成のための密結合推論,探索,生成の価値を強調した。
関連論文リスト
- DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文 参考訳(メタデータ) (2026-02-11T12:51:10Z) - HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - Open Multimodal Retrieval-Augmented Factual Image Generation [86.34546873830152]
Factual Image Generation(FIG)のためのエージェント型オープンマルチモーダル検索拡張フレームワークORIGを紹介する。
ORIGは、Webから反復的にマルチモーダルなエビデンスを検索してフィルタリングし、洗練された知識をリッチなプロンプトにインクリメンタルに統合し、生成をガイドする。
実験により、ORIGは強いベースラインよりも事実整合性と全体的な画像品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-26T04:13:31Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Generative World Models of Tasks: LLM-Driven Hierarchical Scaffolding for Embodied Agents [0.0]
本稿では,世界物理学とそのタスク意味論をモデル化した意思決定のための効果的な世界モデルを提案する。
低リソースマルチエージェントサッカーにおける2024年の研究の体系的レビューは、象徴的手法と階層的手法を統合するための明確な傾向を明らかにしている。
私たちはこの傾向を階層的タスク環境(HTE)のフレームワークとして形式化し、シンプルでリアクティブな振る舞いと洗練された戦略的チームのプレーのギャップを埋めるのに不可欠です。
論文 参考訳(メタデータ) (2025-09-05T01:03:51Z) - BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.1967962502411]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。
画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。
革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (2025-05-14T17:11:07Z) - Grounded Answers for Multi-agent Decision-making Problem through Generative World Model [27.263093790379024]
生成モデルは、複雑なマルチエージェント決定問題に対するスケッチ的で誤解を招くソリューションをしばしば生み出す。
本稿では,言語誘導シミュレータをマルチエージェント強化学習パイプラインに統合し,生成した回答を強化するパラダイムを示す。
特に、一貫した相互作用シーケンスと、相互作用状態における説明可能な報酬関数を生成し、未来の生成モデルを訓練するための道を開くことができる。
論文 参考訳(メタデータ) (2024-10-03T16:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。