論文の概要: Gen-Searcher: Reinforcing Agentic Search for Image Generation
- arxiv url: http://arxiv.org/abs/2603.28767v1
- Date: Mon, 30 Mar 2026 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.563041
- Title: Gen-Searcher: Reinforcing Agentic Search for Image Generation
- Title(参考訳): Gen-Searcher: 画像生成のためのエージェント検索の強化
- Authors: Kaituo Feng, Manyuan Zhang, Shuang Chen, Yunlong Lin, Kaixuan Fan, Yilei Jiang, Hongyu Li, Dian Zheng, Chenyang Wang, Xiangyu Yue,
- Abstract要約: 我々はGen-Searcherを画像生成エージェントを訓練する最初の試みとして紹介する。
我々は,画像生成に検索対象外的知識を明示的に要求するベンチマークであるKnowGenを紹介する。
実験の結果、Gen-SearcherはQwen-ImageをKnowGenで16ポイント改善し、WISEで15ポイント改善した。
- 参考スコア(独自算出の注目度): 27.075835154806025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image generation models have shown strong capabilities in generating high-fidelity and photorealistic images. However, they are fundamentally constrained by frozen internal knowledge, thus often failing on real-world scenarios that are knowledge-intensive or require up-to-date information. In this paper, we present Gen-Searcher, as the first attempt to train a search-augmented image generation agent, which performs multi-hop reasoning and search to collect the textual knowledge and reference images needed for grounded generation. To achieve this, we construct a tailored data pipeline and curate two high-quality datasets, Gen-Searcher-SFT-10k and Gen-Searcher-RL-6k, containing diverse search-intensive prompts and corresponding ground-truth synthesis images. We further introduce KnowGen, a comprehensive benchmark that explicitly requires search-grounded external knowledge for image generation and evaluates models from multiple dimensions. Based on these resources, we train Gen-Searcher with SFT followed by agentic reinforcement learning with dual reward feedback, which combines text-based and image-based rewards to provide more stable and informative learning signals for GRPO training. Experiments show that Gen-Searcher brings substantial gains, improving Qwen-Image by around 16 points on KnowGen and 15 points on WISE. We hope this work can serve as an open foundation for search agents in image generation, and we fully open-source our data, models, and code.
- Abstract(参考訳): 最近の画像生成モデルは、高忠実度およびフォトリアリスティックな画像を生成するのに強力な能力を示している。
しかし、それらは基本的に凍結した内部知識に制約されており、しばしば知識集約的あるいは最新の情報を必要とする現実世界のシナリオで失敗する。
本稿では,マルチホップ推論と検索を行い,グラウンドドジェネレーションに必要なテキスト知識と参照画像の収集を行う,検索強化画像生成エージェントをトレーニングする最初の試みとして,Gen-Searcherを提案する。
そこで我々は,検索集約的なプロンプトとそれに対応する接地構造合成画像を含む2つの高品質データセットであるGen-Searcher-SFT-10kとGen-Searcher-RL-6kを調整したデータパイプラインを構築した。
さらに,画像生成のための探索的外部知識を明示的に要求する包括的ベンチマークである KnowGen を導入し,複数の次元からモデルを評価する。
これらの資源に基づいて、我々はGen-SearcherをSFTで訓練し、さらにエージェント強化学習と二重報酬フィードバックを併用し、テキストベースと画像ベース報酬を組み合わせてGRPOトレーニングのためのより安定的で情報的な学習信号を提供する。
実験の結果、Gen-SearcherはQwen-ImageをKnowGenで16ポイント改善し、WISEで15ポイント改善した。
この研究が、画像生成における検索エージェントのオープン基盤として機能し、私たちのデータ、モデル、コードを完全にオープンソースにすることを願っています。
関連論文リスト
- Open Multimodal Retrieval-Augmented Factual Image Generation [86.34546873830152]
Factual Image Generation(FIG)のためのエージェント型オープンマルチモーダル検索拡張フレームワークORIGを紹介する。
ORIGは、Webから反復的にマルチモーダルなエビデンスを検索してフィルタリングし、洗練された知識をリッチなプロンプトにインクリメンタルに統合し、生成をガイドする。
実験により、ORIGは強いベースラインよりも事実整合性と全体的な画像品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-26T04:13:31Z) - Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。