論文の概要: Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.17354v1
- Date: Mon, 20 Oct 2025 09:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.390801
- Title: Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation
- Title(参考訳): 普遍的検索・拡張生成のための混合モーダル検索に向けて
- Authors: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。
我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
- 参考スコア(独自算出の注目度): 72.34977512403643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing large language models (LLMs) by retrieving relevant documents from an external corpus. However, existing RAG systems primarily focus on unimodal text documents, and often fall short in real-world scenarios where both queries and documents may contain mixed modalities (such as text and images). In this paper, we address the challenge of Universal Retrieval-Augmented Generation (URAG), which involves retrieving and reasoning over mixed-modal information to improve vision-language generation. To this end, we propose Nyx, a unified mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate the scarcity of realistic mixed-modal data, we introduce a four-stage automated pipeline for generation and filtering, leveraging web documents to construct NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that better reflect real-world information needs. Building on this high-quality dataset, we adopt a two-stage training framework for Nyx: we first perform pre-training on NyxQA along with a variety of open-source retrieval datasets, followed by supervised fine-tuning using feedback from downstream vision-language models (VLMs) to align retrieval outputs with generative preferences. Experimental results demonstrate that Nyx not only performs competitively on standard text-only RAG benchmarks, but also excels in the more general and realistic URAG setting, significantly improving generation quality in vision-language tasks.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
しかしながら、既存のRAGシステムは、主に単文の文書に焦点をあてており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含むような現実のシナリオでは、しばしば不足する。
本稿では、視覚言語生成を改善するために、複合モーダル情報の検索と推論を行うUniversal Retrieval-Augmented Generation(URAG)の課題に対処する。
そこで本研究では,URAGシナリオに適した混合モーダルレトリバーであるNyxを提案する。
現実的な混合モーダルデータの不足を軽減するため,実世界の情報ニーズを反映した多種多様な混合モーダル質問応答ペアからなるデータセットであるNyxQAを構築するために,Webドキュメントを活用する4段階の自動パイプラインを導入する。
我々はまず、NyxQAでさまざまなオープンソース検索データセットとともに事前トレーニングを行い、続いて下流の視覚言語モデル(VLM)からのフィードバックを用いて教師付き微調整を行い、検索出力を生成的嗜好と整合させる。
実験の結果、Nyxは標準テキストのみのRAGベンチマークで競合するだけでなく、より汎用的で現実的なURAG設定でも優れており、視覚言語タスクの生成品質が大幅に向上していることがわかった。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation [47.714317480436215]
PreMIRはMLLMの幅広い知識を活用して、検索前にクロスモーダルな事前質問(preQ)を生成するシンプルなフレームワークである。
実験により、PreMIRは、クローズドドメインやマルチリンガル設定など、分散ベンチマークから得られるアートパフォーマンスの状態を達成している。
論文 参考訳(メタデータ) (2025-08-23T16:14:41Z) - MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework [15.410873298893817]
MMKB-RAG(Multi-Modal Knowledge-based Retrieval-Augmented Generation)を提案する。
このフレームワークは、モデル固有の知識境界を利用して、検索プロセスのセマンティックタグを動的に生成する。
知識に基づく視覚的質問応答タスクに関する大規模な実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-04-14T10:19:47Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。