論文の概要: When Vision Meets Texts in Listwise Reranking
- arxiv url: http://arxiv.org/abs/2601.20623v1
- Date: Wed, 28 Jan 2026 13:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.959777
- Title: When Vision Meets Texts in Listwise Reranking
- Title(参考訳): Visionがリストワイドでテキストに出会ったとき
- Authors: Hongyi Cai,
- Abstract要約: Rank-Nexusは、画像とテキストの両方を組み込んだ検索リスト上で、リストワイズで定性的な再ランクを行うマルチモーダルな画像テキスト文書再ランカである。
私たちはまず、大量のテキストを再ランク付けしたデータを活用して、知識をテキストブランチに抽出する、という、モダリティを個別にトレーニングします。
データが少ない画像に対しては,画像検索ベンチマーク上で,マルチモーダル大言語モデル(MLLM)キャプションから蒸留ペアを構築する。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in information retrieval have highlighted the potential of integrating visual and textual information, yet effective reranking for image-text documents remains challenging due to the modality gap and scarcity of aligned datasets. Meanwhile, existing approaches often rely on large models (7B to 32B parameters) with reasoning-based distillation, incurring unnecessary computational overhead while primarily focusing on textual modalities. In this paper, we propose Rank-Nexus, a multimodal image-text document reranker that performs listwise qualitative reranking on retrieved lists incorporating both images and texts. To bridge the modality gap, we introduce a progressive cross-modal training strategy. We first train modalities separately: leveraging abundant text reranking data, we distill knowledge into the text branch. For images, where data is scarce, we construct distilled pairs from multimodal large language model (MLLM) captions on image retrieval benchmarks. Subsequently, we distill a joint image-text reranking dataset. Rank-Nexus achieves outstanding performance on text reranking benchmarks (TREC, BEIR) and the challenging image reranking benchmark (INQUIRE, MMDocIR), using only a lightweight 2B pretrained visual-language model. This efficient design ensures strong generalization across diverse multimodal scenarios without excessive parameters or reasoning overhead.
- Abstract(参考訳): 情報検索の最近の進歩は、視覚情報とテキスト情報の統合の可能性を強調している。
一方、既存のアプローチは推論に基づく蒸留を伴う大きなモデル (7Bから32Bパラメータ) に依存しており、主にテキストのモダリティに焦点をあてる一方で、不要な計算オーバーヘッドが生じる。
本稿では、画像とテキストの両方を組み込んだ検索リスト上で、リストワイズで定性的な再ランクを行うマルチモーダルな画像テキスト文書再ランカである Rank-Nexus を提案する。
モダリティギャップを埋めるために, 漸進的なクロスモーダルトレーニング戦略を導入する。
私たちはまず、大量のテキストを再ランク付けしたデータを活用して、知識をテキストブランチに抽出する、という、モダリティを個別にトレーニングします。
データが少ない画像に対しては,画像検索ベンチマーク上で,マルチモーダル大言語モデル(MLLM)キャプションから蒸留ペアを構築する。
その後、共同画像テキスト再分類データセットを蒸留する。
Rank-Nexusは、軽量な2B事前学習ビジュアル言語モデルのみを使用して、テキストリランクベンチマーク(TREC, BEIR)と挑戦的な画像リランクベンチマーク(INQUIRE, MMDocIR)で優れたパフォーマンスを実現している。
この効率的な設計は、過剰なパラメータや推論オーバーヘッドを伴わずに、多様なマルチモーダルシナリオにまたがる強力な一般化を保証する。
関連論文リスト
- Unified Text-Image Generation with Weakness-Targeted Post-Training [57.956648078400775]
テキストと画像を共同で生成する統一マルチモーダル生成アーキテクチャは、最近、テキスト・ツー・イメージ(T2I)合成の有望な方向として登場した。
この研究は、モデルがテキスト推論から視覚合成へ自律的に遷移する、完全に統一されたテキスト画像生成を実現するためのポストトレーニングを探求する。
論文 参考訳(メタデータ) (2026-01-07T19:19:44Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。