論文の概要: ReinPool: Reinforcement Learning Pooling Multi-Vector Embeddings for Retrieval System
- arxiv url: http://arxiv.org/abs/2601.07125v1
- Date: Mon, 12 Jan 2026 01:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.176091
- Title: ReinPool: Reinforcement Learning Pooling Multi-Vector Embeddings for Retrieval System
- Title(参考訳): ReinPool: Reinforcement Learning Pooling Multi-Vector Embeddings for Retrieval System (特集:情報ネットワーク)
- Authors: Sungguk Cha, DongWook Kim, Mintae Kim, Youngsub Han, Byoung-Ki Jeon, Sangyeob Lee,
- Abstract要約: textbfReinPoolは、マルチベクトル埋め込みをコンパクトで検索最適化された表現にプールすることを学ぶ強化学習フレームワークである。
Vidore V2ベンチマークでは、3つの視覚言語埋め込みモデルに対して、ReinPoolはマルチベクトル表現を746$-1249times$で圧縮し、完全なマルチベクトル検索性能の76~81%を回復した。
- 参考スコア(独自算出の注目度): 4.417775569382944
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-vector embedding models have emerged as a powerful paradigm for document retrieval, preserving fine-grained visual and textual details through token-level representations. However, this expressiveness comes at a staggering cost: storing embeddings for every token inflates index sizes by over $1000\times$ compared to single-vector approaches, severely limiting scalability. We introduce \textbf{ReinPool}, a reinforcement learning framework that learns to dynamically filter and pool multi-vector embeddings into compact, retrieval-optimized representations. By training with an inverse retrieval objective and NDCG-based rewards, ReinPool identifies and retains only the most discriminative vectors without requiring manual importance annotations. On the Vidore V2 benchmark across three vision-language embedding models, ReinPool compresses multi-vector representations by $746$--$1249\times$ into single vectors while recovering 76--81\% of full multi-vector retrieval performance. Compared to static mean pooling baselines, ReinPool achieves 22--33\% absolute NDCG@3 improvement, demonstrating that learned selection significantly outperforms heuristic aggregation.
- Abstract(参考訳): マルチベクトル埋め込みモデルは文書検索の強力なパラダイムとして登場し、トークンレベルの表現を通して細かな視覚的およびテキスト的詳細を保存している。
トークン毎に埋め込みを格納することでインデックスサイズを1,000ドル以上膨らませることができる。
我々は,複数ベクトルの埋め込みを動的にフィルタリングし,検索最適化表現にプールすることを学ぶ強化学習フレームワークである‘textbf{ReinPool} を紹介した。
逆検索目標とNDCGベースの報酬でトレーニングすることで、ReinPoolは手作業による重要なアノテーションを必要とせずに、最も差別的なベクトルのみを特定し、保持する。
Vidore V2ベンチマークでは、3つの視覚言語埋め込みモデルに対して、ReinPoolは、マルチベクトル表現を746$--1249\times$で圧縮し、完全なマルチベクトル検索性能の76-81\%を回復する。
静的平均プールベースラインと比較して、ReinPoolは22~33倍の絶対的なNDCG@3の改善を実現し、学習した選択がヒューリスティックアグリゲーションを著しく上回ることを示した。
関連論文リスト
- Hybrid-Vector Retrieval for Visually Rich Documents: Combining Single-Vector Efficiency and Multi-Vector Accuracy [36.03315207229038]
HEAVENは、視覚的にリッチな文書検索のための2段階のハイブリッドベクトルフレームワークである。
Visually-Summarized Pages上で、単一のベクターメソッドを使用して、候補ページを効率的に検索する。
クエリトークンを言語的に重要度でフィルタリングし、冗長な計算を減らしながら、マルチベクタ方式で候補をリランクする。
論文 参考訳(メタデータ) (2025-10-25T08:27:37Z) - MUVERA: Multi-Vector Retrieval via Fixed Dimensional Encodings [15.275864151890511]
マルチベクトル探索を単一ベクトル類似性探索に還元する検索機構であるMUVERA(MUlti-VEctor Retrieval Algorithm)を導入する。
MUVERAはBEIR検索データセットの多種多様なセットに対して、一貫して優れたエンドツーエンドのリコールとレイテンシを実現する。
論文 参考訳(メタデータ) (2024-05-29T20:40:20Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - Multi-Vector Retrieval as Sparse Alignment [21.892007741798853]
本稿では,クエリと文書トークンの相互アライメントを疎結合に学習する,新しいマルチベクタ検索モデルを提案する。
エントロピー規則化線形計画法により、疎度を達成するために他の手法よりも優れるスパースなユニタリサリエンスを学習する。
我々のモデルは、しばしば解釈可能なアライメントを生成し、より大きな言語モデルからその性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-11-02T16:49:58Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - AdaPool: Exponential Adaptive Pooling for Information-Retaining
Downsampling [82.08631594071656]
畳み込み層は畳み込みニューラルネットワーク(CNN)の重要な構成要素である
適応的で指数関数的に重み付けされたアダプール法を提案する。
adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。
論文 参考訳(メタデータ) (2021-11-01T08:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。