論文の概要: Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation
- arxiv url: http://arxiv.org/abs/2508.17079v1
- Date: Sat, 23 Aug 2025 16:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.329869
- Title: Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation
- Title(参考訳): クロスモーダル質問生成によるゼロショットマルチモーダル文書検索
- Authors: Yejin Choi, Jaewoo Park, Janghan Yoon, Saejin Kim, Jaehyun Jeon, Youngjae Yu,
- Abstract要約: PreMIRはMLLMの幅広い知識を活用して、検索前にクロスモーダルな事前質問(preQ)を生成するシンプルなフレームワークである。
実験により、PreMIRは、クローズドドメインやマルチリンガル設定など、分散ベンチマークから得られるアートパフォーマンスの状態を達成している。
- 参考スコア(独自算出の注目度): 47.714317480436215
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rapid advances in Multimodal Large Language Models (MLLMs) have expanded information retrieval beyond purely textual inputs, enabling retrieval from complex real world documents that combine text and visuals. However, most documents are private either owned by individuals or confined within corporate silos and current retrievers struggle when faced with unseen domains or languages. To address this gap, we introduce PREMIR, a simple yet effective framework that leverages the broad knowledge of an MLLM to generate cross modal pre questions (preQs) before retrieval. Unlike earlier multimodal retrievers that compare embeddings in a single vector space, PREMIR leverages preQs from multiple complementary modalities to expand the scope of matching to the token level. Experiments show that PREMIR achieves state of the art performance on out of distribution benchmarks, including closed domain and multilingual settings, outperforming strong baselines across all retrieval metrics. We confirm the contribution of each component through in depth ablation studies, and qualitative analyses of the generated preQs further highlight the model's robustness in real world settings.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩により、純粋にテキスト入力を超えて情報検索が拡張され、テキストとビジュアルを組み合わせた複雑な現実世界文書からの検索が可能になった。
しかし、ほとんどの文書は個人によって所有されるか、企業のサイロに閉じ込められているかのどちらかであり、現在のレトリバーは、目に見えないドメインや言語に直面して苦労している。
このギャップに対処するために,MLLMの幅広い知識を活用して,検索前のクロスモーダルな事前質問(preQ)を生成する,シンプルで効果的なフレームワークであるPreMIRを導入する。
単一のベクトル空間における埋め込みを比較する初期のマルチモーダルレトリバーとは異なり、PreMIRは複数の相補的なモダリティからプレQを活用して、マッチングのスコープをトークンレベルに拡大する。
実験により、PreMIRは、クローズドドメインやマルチランガル設定を含む分散ベンチマークで最先端のパフォーマンスを達成し、全ての検索指標において強力なベースラインを達成していることがわかった。
我々は,各コンポーネントの深度アブレーション研究による寄与を確認し,生成したPreQの質的分析により,実世界の環境におけるモデルのロバスト性をさらに強調する。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。
画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。
知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文 参考訳(メタデータ) (2024-11-19T07:16:48Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。