論文の概要: ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation
- arxiv url: http://arxiv.org/abs/2511.11483v1
- Date: Fri, 14 Nov 2025 17:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.733567
- Title: ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation
- Title(参考訳): ImAgent: テスト時間スケーラブル画像生成のための統一マルチモーダルエージェントフレームワーク
- Authors: Kaishen Wang, Ruibo Chen, Tong Zheng, Heng Huang,
- Abstract要約: ImAgentは、推論、生成、自己評価を統合するトレーニングフリーの統一マルチモーダルエージェントである。
画像生成と編集タスクの実験は、ImAgentがバックボーンよりも一貫して改善していることを示している。
- 参考スコア(独自算出の注目度): 49.01601313084479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image (T2I) models have made remarkable progress in generating visually realistic and semantically coherent images. However, they still suffer from randomness and inconsistency with the given prompts, particularly when textual descriptions are vague or underspecified. Existing approaches, such as prompt rewriting, best-of-N sampling, and self-refinement, can mitigate these issues but usually require additional modules and operate independently, hindering test-time scaling efficiency and increasing computational overhead. In this paper, we introduce ImAgent, a training-free unified multimodal agent that integrates reasoning, generation, and self-evaluation within a single framework for efficient test-time scaling. Guided by a policy controller, multiple generation actions dynamically interact and self-organize to enhance image fidelity and semantic alignment without relying on external models. Extensive experiments on image generation and editing tasks demonstrate that ImAgent consistently improves over the backbone and even surpasses other strong baselines where the backbone model fails, highlighting the potential of unified multimodal agents for adaptive and efficient image generation under test-time scaling.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ(T2I)モデルは、視覚的にリアルでセマンティックなコヒーレントな画像を生成するのに顕著な進歩を遂げている。
しかし、特に文章の記述が曖昧で不明確である場合、それらは与えられたプロンプトと無作為性や矛盾に悩まされている。
プリミティブリライト、ベストオブNサンプリング、セルフリファインメントといった既存のアプローチは、これらの問題を緩和するが、通常は追加モジュールを必要とし、独立して運用する必要があり、テスト時のスケーリング効率を阻害し、計算オーバーヘッドを増大させる。
本稿では,効率的なテストタイムスケーリングを実現するため,単一のフレームワークに推論,生成,自己評価を統合したトレーニングフリー統一型マルチモーダルエージェントImAgentを紹介する。
ポリシーコントローラによってガイドされ、複数の世代アクションが動的に相互作用し、自己組織化され、外部モデルに頼ることなく、画像の忠実さとセマンティックアライメントを高める。
画像生成と編集タスクに関する大規模な実験により、ImAgentはバックボーンよりも一貫して改善され、バックボーンモデルが失敗する他の強力なベースラインを超え、テスト時間スケーリングの下で適応的で効率的な画像生成のための統合マルチモーダルエージェントの可能性を強調している。
関連論文リスト
- Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [118.52589065972795]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - Concurrently Extrapolating and Interpolating Networks for Continuous
Model Generation [34.72650269503811]
本稿では,一組の特定効果ラベル画像のみを必要とするモデル列を形成するための,シンプルで効果的なモデル生成戦略を提案する。
提案手法は一連の連続モデルの生成が可能であり,画像平滑化のための最先端手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-12T04:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。