論文の概要: Open Multimodal Retrieval-Augmented Factual Image Generation
- arxiv url: http://arxiv.org/abs/2510.22521v1
- Date: Sun, 26 Oct 2025 04:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.230275
- Title: Open Multimodal Retrieval-Augmented Factual Image Generation
- Title(参考訳): オープンマルチモーダル検索による実画像生成
- Authors: Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie,
- Abstract要約: Factual Image Generation(FIG)のためのエージェント型オープンマルチモーダル検索拡張フレームワークORIGを紹介する。
ORIGは、Webから反復的にマルチモーダルなエビデンスを検索してフィルタリングし、洗練された知識をリッチなプロンプトにインクリメンタルに統合し、生成をガイドする。
実験により、ORIGは強いベースラインよりも事実整合性と全体的な画像品質を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 86.34546873830152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) have achieved remarkable progress in generating photorealistic and prompt-aligned images, but they often produce outputs that contradict verifiable knowledge, especially when prompts involve fine-grained attributes or time-sensitive events. Conventional retrieval-augmented approaches attempt to address this issue by introducing external information, yet they are fundamentally incapable of grounding generation in accurate and evolving knowledge due to their reliance on static sources and shallow evidence integration. To bridge this gap, we introduce ORIG, an agentic open multimodal retrieval-augmented framework for Factual Image Generation (FIG), a new task that requires both visual realism and factual grounding. ORIG iteratively retrieves and filters multimodal evidence from the web and incrementally integrates the refined knowledge into enriched prompts to guide generation. To support systematic evaluation, we build FIG-Eval, a benchmark spanning ten categories across perceptual, compositional, and temporal dimensions. Experiments demonstrate that ORIG substantially improves factual consistency and overall image quality over strong baselines, highlighting the potential of open multimodal retrieval for factual image generation.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、フォトリアリスティックおよびプロンプト整列画像の生成において顕著な進歩を遂げているが、特に微粒な属性や時間に敏感なイベントを含む場合、検証可能な知識に矛盾する出力を生成することが多い。
従来の検索強化アプローチでは、外部情報を導入してこの問題に対処しようとするが、静的な情報源への依存と浅い証拠の統合により、正確で進化した知識の創出は基本的に不可能である。
このギャップを埋めるために,実写と実写の両方を必要とする新しいタスクであるFactual Image Generation (FIG) のためのエージェント型オープンマルチモーダル検索拡張フレームワークORIGを導入する。
ORIGは、Webから反復的にマルチモーダルなエビデンスを検索してフィルタリングし、洗練された知識をリッチなプロンプトにインクリメンタルに統合し、生成をガイドする。
システム評価を支援するために,FIG-Evalという,知覚的,構成的,時間的次元にまたがる10のカテゴリにまたがるベンチマークを構築した。
実験により、ORIGは、強いベースラインよりも事実整合性と全体的な画像品質を大幅に改善し、実画像生成のためのオープンマルチモーダル検索の可能性を強調した。
関連論文リスト
- Cross-modal RAG: Sub-dimensional Text-to-Image Retrieval-Augmented Generation [16.411920699543774]
Cross-modal RAGは、クエリとイメージの両方をサブ次元のコンポーネントに分解する新しいフレームワークである。
本稿では,サブ次元スパースレトリバーと高密度レトリバーを組み合わせたハイブリッド検索手法を提案する。
MS-COCO、Flickr30K、WikiArt、CUB、ImageNet-LTの実験では、クロスモーダルRAGが検索において既存のベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-05-28T04:09:49Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries [30.692007887121278]
Retrieval-augmented Generation (RAG)は、知識集約的な質問に対処するために、外部知識で大きな言語モデルを拡張する。
Visual-RAGは、視覚的に根ざした知識集約的な質問を対象とする質問回答ベンチマークである。
我々は,5つのオープンソースと3つのプロプライエタリなMLLMを評価し,画像が拡張世代において強力な証拠となることを示す。
論文 参考訳(メタデータ) (2025-02-23T16:23:50Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。