論文の概要: GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2601.18543v1
- Date: Mon, 26 Jan 2026 14:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.878512
- Title: GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning
- Title(参考訳): GenAgent: エージェントマルチモーダル推論によるテキストから画像へのスケーリング
- Authors: Kaixun Jiang, Yuzheng Wang, Junjie Zhou, Pandeng Li, Zhihang Liu, Chen-Wei Xie, Zhaoyu Chen, Yun Zheng, Wenqiang Zhang,
- Abstract要約: 我々は,エージェント型マルチモーダルモデルを用いて,視覚的理解と生成を統一したGenAgentを導入する。
GenAgentはGenEval++とWISEのベースジェネレータ(FLUX.1-dev)のパフォーマンスを大幅に向上させる。
本フレームワークは,1) 様々な機能を持つジェネレータへのクロスツール一般化,2) インタラクションラウンド間で一貫した改善を伴うテスト時間スケーリング,3) タスクに自動的に適応するタスク適応推論の3つの重要な特性を示す。
- 参考スコア(独自算出の注目度): 54.42973725693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GenAgent, unifying visual understanding and generation through an agentic multimodal model. Unlike unified models that face expensive training costs and understanding-generation trade-offs, GenAgent decouples these capabilities through an agentic framework: understanding is handled by the multimodal model itself, while generation is achieved by treating image generation models as invokable tools. Crucially, unlike existing modular systems constrained by static pipelines, this design enables autonomous multi-turn interactions where the agent generates multimodal chains-of-thought encompassing reasoning, tool invocation, judgment, and reflection to iteratively refine outputs. We employ a two-stage training strategy: first, cold-start with supervised fine-tuning on high-quality tool invocation and reflection data to bootstrap agent behaviors; second, end-to-end agentic reinforcement learning combining pointwise rewards (final image quality) and pairwise rewards (reflection accuracy), with trajectory resampling for enhanced multi-turn exploration. GenAgent significantly boosts base generator(FLUX.1-dev) performance on GenEval++ (+23.6\%) and WISE (+14\%). Beyond performance gains, our framework demonstrates three key properties: 1) cross-tool generalization to generators with varying capabilities, 2) test-time scaling with consistent improvements across interaction rounds, and 3) task-adaptive reasoning that automatically adjusts to different tasks. Our code will be available at \href{https://github.com/deep-kaixun/GenAgent}{this url}.
- Abstract(参考訳): 我々は,エージェント型マルチモーダルモデルを用いて,視覚的理解と生成を統一したGenAgentを導入する。
高価なトレーニングコストと理解世代トレードオフに直面した統一モデルとは異なり、GenAgentはエージェントフレームワークを通じてこれらの機能を分離する。
重要なことは、静的パイプラインに制約された既存のモジュールシステムとは異なり、この設計はエージェントが推論、ツールの呼び出し、判断、反復的に洗練された出力への反射を含む多モーダル連鎖を生成する、自律的なマルチターン相互作用を可能にする。
我々は,2段階のトレーニング戦略を採用している。第1に,高品質なツール呼び出しとリフレクションデータに対する教師付き微調整,第2に,ポイントワイド報酬(最終的な画像品質)とペアワイド報酬(リフレクション精度)を組み合わせたエージェント強化学習,およびマルチターン探索のための軌道再サンプリングである。
GenAgentは、GenEval++(+23.6\%)とWISE(+14\%)のベースジェネレータ(FLUX.1-dev)のパフォーマンスを大幅に向上させる。
パフォーマンス向上以外にも、私たちのフレームワークは3つの重要な特性を示しています。
1)多機能発電機へのクロスツールの一般化
2) 相互作用ラウンドをまたいだ一貫した改善によるテストタイムスケーリング,
3)異なるタスクに自動的に適応するタスク適応推論。
私たちのコードは \href{https://github.com/deep-kaixun/GenAgent}{this url} で利用可能です。
関連論文リスト
- Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback [51.22403664895878]
Agent2Worldは、強力な推論時ワールドモデル生成を実現するツール拡張マルチエージェントフレームワークである。
また、マルチエージェントフィードバックの生成を基盤にすることで、教師付き微調整のためのデータエンジンとしても機能する。
論文 参考訳(メタデータ) (2025-12-26T18:54:14Z) - ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation [49.01601313084479]
ImAgentは、推論、生成、自己評価を統合するトレーニングフリーの統一マルチモーダルエージェントである。
画像生成と編集タスクの実験は、ImAgentがバックボーンよりも一貫して改善していることを示している。
論文 参考訳(メタデータ) (2025-11-14T17:00:29Z) - Klear-AgentForge: Forging Agentic Intelligence through Posttraining Scaling [46.593200463657645]
我々は,Klear-Qwen3-AgentForgeという高性能エージェントモデルを学習するための,包括的で完全なオープンソースパイプラインを提案する。
合成データを用いた効率的な教師付き微調整(SFT)とマルチターン強化学習(RL)を併用し,多種多様なエージェントタスクの可能性を解き放つ。
論文 参考訳(メタデータ) (2025-11-08T09:47:27Z) - Hollywood Town: Long-Video Generation via Cross-Modal Multi-Agent Orchestration [73.65102758687289]
本研究は,マルチエージェントコラボレーションを改善するための3つのイノベーションを紹介する。
まず、長いビデオ生成のための階層型グラフベースのマルチエージェントフレームワークであるOmniAgentを提案する。
第2に,文脈工学にヒントを得たハイパーグラフノードを提案する。
論文 参考訳(メタデータ) (2025-10-25T20:34:18Z) - Agent Lightning: Train ANY AI Agents with Reinforcement Learning [24.13422767414729]
我々は,任意のAIエージェントに対して,強化学習(RL)に基づくLarge Language Models(LLM)のトレーニングを可能にするフレームワークであるAgens Lightningを提案する。
エージェント実行をマルコフ決定プロセスとして定式化することにより、統一データインターフェースを定義し、クレジット代入モジュールを含む階層的RLアルゴリズムLightningRLを提案する。
システム設計のために、トレーニング・エージェント・デアグリゲーションアーキテクチャを導入し、エージェント・オブザーバビリティ・フレームワークをエージェント・ランタイムに導入する。
論文 参考訳(メタデータ) (2025-08-05T17:50:13Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Learning Generative Models with Goal-conditioned Reinforcement Learning [0.0]
目標条件付き強化学習を用いた生成モデル学習のための新しいフレームワークを提案する。
画像合成のタスクにおいて,本手法が多種多様な高品質なサンプルを生成可能であることを実証的に実証した。
論文 参考訳(メタデータ) (2023-03-26T20:33:44Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。