論文の概要: MINER: Mining Multimodal Internal Representation for Efficient Retrieval
- arxiv url: http://arxiv.org/abs/2605.06460v1
- Date: Thu, 07 May 2026 15:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.960308
- Title: MINER: Mining Multimodal Internal Representation for Efficient Retrieval
- Title(参考訳): MINER:効率的な検索のためのマルチモーダルな内部表現のマイニング
- Authors: Weien Li, Rui Song, Zeyu Li, Haochen Liu, Gonghao Zhang, Difan Jiao, Zhenwei Tang, Bowei He, Haolun Wu, Xue Liu, Ye Yuan,
- Abstract要約: MINER (Mining Multimodal Internal RepreseNtation for Efficient Retrieval) は、トランスフォーマー層をまたいだ内部信号を単一のコンパクトな埋め込みに変換する軽量なプラグインモジュールである。
ViDoRe V1/V2/V3全体で、MINERは既存の高密度なシングルベクターレトリバーをベンチマークの大部分で上回り、対応するバックボーンよりも最大4.5%のnDCG@5改善されている。
- 参考スコア(独自算出の注目度): 30.225207646393542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual document retrieval has become essential for accessing information in visually rich documents. Existing approaches fall into two camps. Late-interaction retrievers achieve strong quality through fine-grained token-level matching but store hundreds of vectors per page, incurring large index footprints and high serving costs. By contrast, dense single-vector retrievers retain storage and latency advantages but consistently lag in quality because they compress all information into a single final-layer embedding. In this work, we first conduct a layerwise diagnostic on single-vector retrievers, revealing that retrieval-relevant signal resides in internal representations. Motivated by these findings, we propose MINER (Mining Multimodal Internal RepreseNtation for Efficient Retrieval), a lightweight plug-in module that probes and fuses internal signals across transformer layers into a single compact embedding without modifying the backbone or sacrificing single-vector efficiency. The first Retrieval-Aligned Layer Probing stage attaches a lightweight probe at each layer, surfacing which dimensions carry retrieval-relevant information. The subsequent Adaptive Sparse Multi-Layer Fusion stage applies performance-adaptive neuron-level masking to the selected layers and fuses the surviving signals into the final dense vector. Across ViDoRe V1/V2/V3, MINER outperforms existing dense single-vector retrievers on the majority of benchmarks, with up to 4.5% nDCG@5 improvement over its corresponding backbone. Compared to strong late-interaction baselines, in some settings MINER substantially narrows the nDCG@$5$ gap to $0.2$ while preserving the storage and serving advantages of dense retrieval.
- Abstract(参考訳): ビジュアルドキュメント検索は、視覚的にリッチなドキュメントの情報にアクセスするのに欠かせないものとなっている。
既存のアプローチは2つのキャンプに分かれる。
遅延処理レトリバーは、きめ細かいトークンレベルのマッチングによって強い品質を達成するが、1ページあたり数百のベクトルを格納し、インデックスフットプリントが大きくなり、サービスコストが高い。
対照的に、密度の高い単一ベクトルレトリバーは、ストレージとレイテンシの優位性を維持するが、すべての情報を単一の最終層埋め込みに圧縮するため、常に品質が低下する。
本研究では,まず単一ベクトルレトリバーの階層的診断を行い,検索関連信号が内部表現に存在することを示す。
提案するMINER(Mining Multimodal Internal RepreseNtation for Efficient Retrieval)は,トランスフォーマー層にまたがる内部信号を単一のコンパクトな埋め込みにプローブし,融合する軽量なプラグインモジュールである。
第1のRetrieval-Aligned Layer Probingステージは、各層に軽量プローブをアタッチし、どの次元が検索関連情報を運ぶかを確認する。
その後のAdaptive Sparse Multi-Layer Fusionステージでは、選択された層にパフォーマンス適応型ニューロンレベルマスキングを適用し、残った信号を最後の高密度ベクトルに融合する。
ViDoRe V1/V2/V3全体で、MINERは既存の高密度なシングルベクターレトリバーをベンチマークの大部分で上回り、対応するバックボーンよりも最大4.5%のnDCG@5改善されている。
強力な遅延処理ベースラインと比較して、MINER は nDCG@$5$ のギャップを 0.2$ に減らし、ストレージを保存し、高密度検索の利点を提供する。
関連論文リスト
- Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。
インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。
AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文 参考訳(メタデータ) (2026-02-24T18:57:33Z) - Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework [39.59931739606983]
Visual Document Retrieval (VDR) は、視覚的にリッチな膨大なコーパス内の関連ページを検索することを目的としている。
プルーニングやマージといった現在の効率性は不完全であり、圧縮率と特徴の忠実さのトレードオフが難しい。
本稿では,これらの相補的アプローチを相補する新しい2段階フレームワークPrune-then-Mergeを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:45:19Z) - Multivector Reranking in the Era of Strong First-Stage Retrievers [11.098422338598454]
2つの公開データセット上で、最先端のマルチベクタ検索手法を再現する。
トークンレベルの集合フェーズを単一ベクトル文書検索器に置き換えることで,より小さく,より意味的に一貫性のある候補セットが生成されることを示す。
我々の2段階のアプローチは、最先端のマルチベクター検索システムに対して24ドル以上のスピードアップを実現し、同等または優れた検索品質を維持しています。
論文 参考訳(メタデータ) (2026-01-08T18:22:18Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - Efficient Constant-Space Multi-Vector Retrieval [25.834026445124874]
入力トークンに縛られる必要がなくなったベクトルに対して,文書を一定数のベクトルに符号化する手法を提案する。
経路は、元の有効性を保ちながら、効果的に一定数のベクトルに符号化できることがわかった。
論文 参考訳(メタデータ) (2025-04-02T15:22:23Z) - MUVERA: Multi-Vector Retrieval via Fixed Dimensional Encodings [15.275864151890511]
マルチベクトル探索を単一ベクトル類似性探索に還元する検索機構であるMUVERA(MUlti-VEctor Retrieval Algorithm)を導入する。
MUVERAはBEIR検索データセットの多種多様なセットに対して、一貫して優れたエンドツーエンドのリコールとレイテンシを実現する。
論文 参考訳(メタデータ) (2024-05-29T20:40:20Z) - Improving Out-of-Distribution Generalization of Neural Rerankers with
Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。
異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文 参考訳(メタデータ) (2023-02-13T18:42:17Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。