論文の概要: World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge
- arxiv url: http://arxiv.org/abs/2510.04201v1
- Date: Sun, 05 Oct 2025 13:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.512489
- Title: World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge
- Title(参考訳): World-to-Image: エージェント駆動の世界知識によるテキスト・トゥ・イメージ生成
- Authors: Moo Hyun Son, Jintaek Oh, Sun Bin Mun, Jaechul Roh, Sehyun Choi,
- Abstract要約: 本稿では,エージェント駆動の世界知識によるT2I生成の強化によってギャップを埋める新しいフレームワークであるWorld-To-Imageを紹介する。
我々は,Webを動的に検索して,ベースモデルに未知の概念のイメージを検索するエージェントを設計する。
この情報を用いてマルチモーダルなプロンプト最適化を行い、正確な合成に向けて強力な生成バックボーンを操る。
- 参考スコア(独自算出の注目度): 2.595803115566975
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While text-to-image (T2I) models can synthesize high-quality images, their performance degrades significantly when prompted with novel or out-of-distribution (OOD) entities due to inherent knowledge cutoffs. We introduce World-To-Image, a novel framework that bridges this gap by empowering T2I generation with agent-driven world knowledge. We design an agent that dynamically searches the web to retrieve images for concepts unknown to the base model. This information is then used to perform multimodal prompt optimization, steering powerful generative backbones toward an accurate synthesis. Critically, our evaluation goes beyond traditional metrics, utilizing modern assessments like LLMGrader and ImageReward to measure true semantic fidelity. Our experiments show that World-To-Image substantially outperforms state-of-the-art methods in both semantic alignment and visual aesthetics, achieving +8.1% improvement in accuracy-to-prompt on our curated NICE benchmark. Our framework achieves these results with high efficiency in less than three iterations, paving the way for T2I systems that can better reflect the ever-changing real world. Our demo code is available here\footnote{https://github.com/mhson-kyle/World-To-Image}.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは高品質な画像を合成できるが、その性能は、固有の知識の切り離しにより、新規またはアウト・オブ・ディストリビューション(OOD)エンティティによって引き起こされると著しく低下する。
このギャップを埋める新しいフレームワークであるWorld-To-Imageを紹介します。
我々は,Webを動的に検索して,ベースモデルに未知の概念のイメージを検索するエージェントを設計する。
この情報を用いてマルチモーダルなプロンプト最適化を行い、正確な合成に向けて強力な生成バックボーンを操る。
LLMGraderやImageRewardといった最新のアセスメントを利用して、真のセマンティックな忠実さを計測しています。
我々の実験は, セマンティックアライメントと視覚美学の両面で, 最先端の手法を著しく上回り, キュレートされたNICEベンチマークにおいて, 8.1%の精度向上を実現していることを示した。
我々のフレームワークは、3回以内のイテレーションでこれらの結果を高い効率で実現し、常に変化する現実世界をよりよく反映できるT2Iシステムを実現する。
私たちのデモコードはここで利用可能です。
関連論文リスト
- Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image [53.09546752700792]
我々は,この代替プロセスを明示論理ナラティブ・プロンプト (ELNP) と呼ぶ方法を提案する。
合成画像において,プロンプトに要求される概念を平均的にカバーできる数を計算するための計量を設計する。
大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
論文 参考訳(メタデータ) (2025-05-20T13:27:52Z) - WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation [38.196609962452655]
textbfWorldGenBenchは、T2Iモデルの世界の知識基盤と暗黙の推論能力を評価するために設計されたベンチマークである。
提案するtextbfKnowledge Checklist Scoreは,生成した画像がキーセマンティックな期待値を満たす度合いを計測する構造化メトリクスである。
本研究は,次世代T2Iシステムにおいて,より深い理解と推論機能の必要性を強調した。
論文 参考訳(メタデータ) (2025-05-02T17:59:06Z) - Lumina-Image 2.0: A Unified and Efficient Image Generative Framework [76.44331001702379]
Lumina-Image 2.0はテキストから画像を生成するフレームワークで、以前の作業と比べて大きな進歩を遂げている。
統一アーキテクチャ(Unified Next-DiT)を採用し、テキストと画像トークンをジョイントシーケンスとして扱う。
本稿では,T2I生成タスクに特化して設計された統一キャプションシステムUnified Captioner(UniCap)を紹介する。
論文 参考訳(メタデータ) (2025-03-27T17:57:07Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - TIPS: Text-Image Pretraining with Spatial awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつグローバルな視覚タスクのために,棚から効果的に利用可能な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Txt2Img-MHN: Remote Sensing Image Generation from Text Using Modern
Hopfield Networks [20.856451960761948]
本稿では,リアルタイムなリモートセンシング画像を生成するために,新しいテキスト・ツー・イメージのホップフィールドネットワーク(Txt2Img-MHN)を提案する。
生成した画像のリアリズムとセマンティック一貫性をよりよく評価するため,実リモートセンシングデータを用いてゼロショット分類を行う。
提案したTxt2Img-MHNはよりリアルなリモートセンシング画像を生成することができる。
論文 参考訳(メタデータ) (2022-08-08T22:02:10Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。