論文の概要: Introducing Neural Bag of Whole-Words with ColBERTer: Contextualized
Late Interactions using Enhanced Reduction
- arxiv url: http://arxiv.org/abs/2203.13088v1
- Date: Thu, 24 Mar 2022 14:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 12:43:44.275565
- Title: Introducing Neural Bag of Whole-Words with ColBERTer: Contextualized
Late Interactions using Enhanced Reduction
- Title(参考訳): ColBERTerを用いた全単語のニューラルバッグの導入:強化化による文脈的遅延相互作用
- Authors: Sebastian Hofst\"atter, Omar Khattab, Sophia Althammer, Mete Sertkan,
Allan Hanbury
- Abstract要約: ColBERTerは、文脈化された遅延相互作用(ColBERT)と強化されたリダクションを用いたニューラル検索モデルである。
マルチベクタコンポーネントのために、ColBERTerは、各ドキュメントの用語に対するユニークな全ワード表現を学習することで、ドキュメントごとの格納数を減らす。
MS MARCOとTREC-DLのコレクションの結果から、ColBERTerは最大2.5倍のストレージフットプリントを削減できるが、有効性は維持できる。
- 参考スコア(独自算出の注目度): 10.749746283569847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in neural information retrieval has demonstrated large gains
in effectiveness, while often sacrificing the efficiency and interpretability
of the neural model compared to classical approaches. This paper proposes
ColBERTer, a neural retrieval model using contextualized late interaction
(ColBERT) with enhanced reduction. Along the effectiveness Pareto frontier,
ColBERTer's reductions dramatically lower ColBERT's storage requirements while
simultaneously improving the interpretability of its token-matching scores. To
this end, ColBERTer fuses single-vector retrieval, multi-vector refinement, and
optional lexical matching components into one model. For its multi-vector
component, ColBERTer reduces the number of stored vectors per document by
learning unique whole-word representations for the terms in each document and
learning to identify and remove word representations that are not essential to
effective scoring. We employ an explicit multi-task, multi-stage training to
facilitate using very small vector dimensions. Results on the MS MARCO and
TREC-DL collection show that ColBERTer can reduce the storage footprint by up
to 2.5x, while maintaining effectiveness. With just one dimension per token in
its smallest setting, ColBERTer achieves index storage parity with the
plaintext size, with very strong effectiveness results. Finally, we demonstrate
ColBERTer's robustness on seven high-quality out-of-domain collections,
yielding statistically significant gains over traditional retrieval baselines.
- Abstract(参考訳): 近年の神経情報検索の進歩は、古典的アプローチと比較して、神経モデルの効率と解釈性を犠牲にしながら、有効性が大幅に向上している。
本稿では、文脈的遅延相互作用(ColBERT)を用いたニューラルネットワークモデルColBERTerを提案する。
Paretoフロンティアの有効性とともに、ColBERTerの削減はColBERTのストレージ要件を劇的に低下させ、同時にトークンマッチングスコアの解釈性を改善した。
この目的のために、ColBERTerはシングルベクター検索、マルチベクター改良、オプションの語彙マッチングコンポーネントを1つのモデルに統合する。
マルチベクターコンポーネントでは、ColBERTerは文書ごとの格納ベクトルの数を減らし、各文書の用語に固有の単語表現を学習し、効果的なスコアリングに必須でない単語表現を識別し削除することを学ぶ。
我々は、非常に小さなベクトル次元の使用を容易にするために、明示的なマルチタスク、マルチステージトレーニングを採用している。
MS MARCOとTREC-DLのコレクションの結果から、ColBERTerは最大2.5倍のストレージフットプリントを削減できるが、有効性は維持できる。
ColBERTerは、最小設定でトークンごとに1次元しか持たず、平文サイズと同等のインデックスストレージを実現し、非常に強力な効果をもたらす。
最後に,7つの高品質なドメイン外コレクションに対するcolberterの堅牢性を示し,従来の検索ベースラインよりも統計的に有意な利益を得た。
関連論文リスト
- Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever [6.221757399678299]
ColBERTの遅延相互作用評価は、クロスエンコーダに見られる共同クエリ文書の注意を近似する。
我々の新しいモデルであるJina-ColBERT-v2は、英語および多言語検索タスクで高い性能を示す。
論文 参考訳(メタデータ) (2024-08-29T16:21:00Z) - SPLATE: Sparse Late Interaction Retrieval [13.607085390630647]
SPLATEは、MLMアダプタを学習するColBERTv2モデルの軽量化である。
パイプラインはPLAID ColBERTv2エンジンと同じ効率を10ms以下で検索可能な50の文書を再ランク付けすることで実現している。
論文 参考訳(メタデータ) (2024-04-22T07:51:13Z) - Beyond Two-Tower Matching: Learning Sparse Retrievable
Cross-Interactions for Recommendation [80.19762472699814]
2-towerモデルは、産業アプリケーションに広くデプロイされている推奨のための一般的なマッチングフレームワークである。
機能間相互作用の制限と、オンラインサービスにおける精度の低下など、主な課題が2つある。
我々は,高度な機能相互作用だけでなく,効率的な検索もサポートするSparCodeという新しいマッチングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-30T03:13:36Z) - Improving Out-of-Distribution Generalization of Neural Rerankers with
Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。
異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文 参考訳(メタデータ) (2023-02-13T18:42:17Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - A Study on Token Pruning for ColBERT [0.7646713951724011]
ColBERTモデルは最近、有効なBERTベースのランク付けとして提案されている。
モデルの大きな欠点はインデックスサイズであり、コレクション内のトークンの数と線形にスケールする。
本稿では,この問題に対処するために,ColBERTモデルの様々な設計について検討する。
論文 参考訳(メタデータ) (2021-12-13T10:24:54Z) - ColBERTv2: Effective and Efficient Retrieval via Lightweight Late
Interaction [15.336103841957328]
ColBERTv2は、攻撃的な残留圧縮機構と識別された監視戦略を結合するレトリバーである。
ColBERTv2をさまざまなベンチマークで評価し,トレーニング領域内外における最先端の品質を確立した。
論文 参考訳(メタデータ) (2021-12-02T18:38:50Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Distilling Dense Representations for Ranking using Tightly-Coupled
Teachers [52.85472936277762]
我々は最近提案された後期相互作用ColBERTモデルを改善するために知識蒸留を適用した。
ColBERT の表現型 MaxSim 演算子から知識を抽出し、関連度スコアを単純な点積に変換する。
提案手法はクエリ待ち時間を改善し,ColBERTの面倒なストレージ要件を大幅に削減する。
論文 参考訳(メタデータ) (2020-10-22T02:26:01Z) - ColBERT: Efficient and Effective Passage Search via Contextualized Late
Interaction over BERT [24.288824715337483]
ColBERTは、ディープLMを効率的な検索に適応させる新しいランキングモデルである。
我々は最近の2つの経路探索データセットを用いてColBERTを広範囲に評価した。
論文 参考訳(メタデータ) (2020-04-27T14:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。