論文の概要: Recurrence Meets Transformers for Universal Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2509.08897v1
- Date: Wed, 10 Sep 2025 18:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.091682
- Title: Recurrence Meets Transformers for Universal Multimodal Retrieval
- Title(参考訳): Recurrenceがユニバーサルマルチモーダル検索用トランスフォーマーを発表
- Authors: Davide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
- 参考スコア(独自算出の注目度): 59.92546492752452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of multimodal retrieval and its application in LLMs and multimodal LLMs, increasingly complex retrieval tasks have emerged. Existing methods predominantly rely on task-specific fine-tuning of vision-language models and are limited to single-modality queries or documents. In this paper, we propose ReT-2, a unified retrieval model that supports multimodal queries, composed of both images and text, and searches across multimodal document collections where text and images coexist. ReT-2 leverages multi-layer representations and a recurrent Transformer architecture with LSTM-inspired gating mechanisms to dynamically integrate information across layers and modalities, capturing fine-grained visual and textual details. We evaluate ReT-2 on the challenging M2KR and M-BEIR benchmarks across different retrieval configurations. Results demonstrate that ReT-2 consistently achieves state-of-the-art performance across diverse settings, while offering faster inference and reduced memory usage compared to prior approaches. When integrated into retrieval-augmented generation pipelines, ReT-2 also improves downstream performance on Encyclopedic-VQA and InfoSeek datasets. Our source code and trained models are publicly available at: https://github.com/aimagelab/ReT-2
- Abstract(参考訳): マルチモーダル検索の急速な進歩とLLMやマルチモーダルLLMへの応用により、ますます複雑な検索タスクが出現している。
既存の手法は主に視覚言語モデルのタスク固有の微調整に依存しており、単一のモダリティクエリやドキュメントに限られている。
本稿では、画像とテキストの両方からなるマルチモーダルクエリをサポートする統一検索モデルReT-2を提案し、テキストと画像が共存するマルチモーダル文書コレクションを検索する。
ReT-2は、多層表現とLSTMにインスパイアされたゲーティング機構を備えた再帰トランスフォーマーアーキテクチャを利用して、レイヤやモダリティ間で情報を動的に統合し、きめ細かい視覚的およびテキスト的詳細をキャプチャする。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
結果から,ReT-2は従来に比べて高速な推論とメモリ使用量の削減を実現した。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
私たちのソースコードとトレーニングされたモデルは、https://github.com/aimagelab/ReT-2で公開されています。
関連論文リスト
- Visualized Text-to-Image Retrieval [55.178938325324864]
テキスト・トゥ・イメージ(T2I)検索のための新しいパラダイムである Visualize-then-Retrieve (VisRet) を提案する。
VisRetはまず、T2I生成を介して画像モダリティにテキストクエリを投影する。
その後、画像モダリティ内で検索を行い、微妙な視覚空間的特徴を認識するために、クロスモーダルレトリバーの弱点を回避します。
論文 参考訳(メタデータ) (2025-05-26T17:59:33Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval [44.008094698200026]
クロスモーダル検索は研究コミュニティから有効性や関心が増している。
本稿では,画像とテキストの両方からなるマルチモーダルクエリを実現するアプローチを設計する。
我々のモデルであるReTは、視覚とテキストの両方のバックボーンの異なるレイヤから抽出されたマルチレベル表現を用いる。
論文 参考訳(メタデータ) (2025-03-03T19:01:17Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。