論文の概要: Cross-modal RAG: Sub-dimensional Retrieval-Augmented Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.21956v2
- Date: Thu, 29 May 2025 03:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.779845
- Title: Cross-modal RAG: Sub-dimensional Retrieval-Augmented Text-to-Image Generation
- Title(参考訳): クロスモーダルRAG:サブ次元検索によるテキスト・ツー・イメージ生成
- Authors: Mengdan Zhu, Senhao Cheng, Guangji Bai, Yifei Zhang, Liang Zhao,
- Abstract要約: 我々は,クエリとイメージの両方をサブ次元のコンポーネントに分解する新しいフレームワークであるCross-modal RAGを提案する。
本稿では,サブ次元スパースレトリバーと高密度レトリバーを組み合わせたハイブリッド検索手法を提案する。
MS-COCO、Flickr30K、WikiArt、CUB、ImageNet-LTの実験では、クロスモーダルRAGは検索と生成の両方において既存のベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 12.631059980161435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation increasingly demands access to domain-specific, fine-grained, and rapidly evolving knowledge that pretrained models cannot fully capture. Existing Retrieval-Augmented Generation (RAG) methods attempt to address this by retrieving globally relevant images, but they fail when no single image contains all desired elements from a complex user query. We propose Cross-modal RAG, a novel framework that decomposes both queries and images into sub-dimensional components, enabling subquery-aware retrieval and generation. Our method introduces a hybrid retrieval strategy - combining a sub-dimensional sparse retriever with a dense retriever - to identify a Pareto-optimal set of images, each contributing complementary aspects of the query. During generation, a multimodal large language model is guided to selectively condition on relevant visual features aligned to specific subqueries, ensuring subquery-aware image synthesis. Extensive experiments on MS-COCO, Flickr30K, WikiArt, CUB, and ImageNet-LT demonstrate that Cross-modal RAG significantly outperforms existing baselines in both retrieval and generation quality, while maintaining high efficiency.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーションは、ドメイン固有の、きめ細かな、そして事前訓練されたモデルが完全に把握できない、急速に進化する知識へのアクセスをますます要求します。
既存のRAG(Retrieval-Augmented Generation)メソッドは、グローバルに関連のあるイメージを検索することでこの問題に対処しようとするが、複雑なユーザクエリからすべての所望の要素を含むイメージが存在しない場合には失敗する。
我々は,クエリとイメージをサブ次元のコンポーネントに分解し,サブクエリを意識した検索と生成を可能にする新しいフレームワークであるCross-modal RAGを提案する。
本手法では,サブ次元スパース検索器と高密度検索器を組み合わせたハイブリッド検索手法を提案する。
生成中に、特定のサブクエリに整合した視覚的特徴を選択的に条件付けし、サブクエリを意識した画像合成を保証するために、マルチモーダルな大規模言語モデルが導かれる。
MS-COCO、Flickr30K、WikiArt、CUB、ImageNet-LTの大規模な実験により、クロスモーダルRAGは、高い効率を維持しながら、検索および生成品質の両方において既存のベースラインを大幅に上回っていることが示された。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - A Multimodal Approach for Cross-Domain Image Retrieval [5.5547914920738]
クロスドメイン画像検索(Cross-Domain Image Retrieval, CDIR)は、コンピュータビジョンにおける課題である。
本稿では、事前学習された視覚言語モデルを活用することで、テキストコンテキストを取り入れた新しい教師なしのCDIRアプローチを提案する。
提案手法は,画像キャプションをドメインに依存しない中間表現として用いる。
論文 参考訳(メタデータ) (2024-03-22T12:08:16Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。