論文の概要: A Reproducibility Study of PLAID
- arxiv url: http://arxiv.org/abs/2404.14989v1
- Date: Tue, 23 Apr 2024 12:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:01:50.128069
- Title: A Reproducibility Study of PLAID
- Title(参考訳): PLAIDの再現性に関する研究
- Authors: Sean MacAvaney, Nicola Tonellotto,
- Abstract要約: 我々はPLAIDと論文から欠落した重要なベースラインを比較した。
ColBERTv2 を BM25 の初期プール上に再ランカとして適用することにより,低レイテンシ環境での効率効率・効率性トレードオフが向上することがわかった。
この制限を克服するために、最近提案された上位文書の隣人を引き出すように、再ランク付けする修正が提案されていることが分かりました。
- 参考スコア(独自算出の注目度): 25.86500025007641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The PLAID (Performance-optimized Late Interaction Driver) algorithm for ColBERTv2 uses clustered term representations to retrieve and progressively prune documents for final (exact) document scoring. In this paper, we reproduce and fill in missing gaps from the original work. By studying the parameters PLAID introduces, we find that its Pareto frontier is formed of a careful balance among its three parameters; deviations beyond the suggested settings can substantially increase latency without necessarily improving its effectiveness. We then compare PLAID with an important baseline missing from the paper: re-ranking a lexical system. We find that applying ColBERTv2 as a re-ranker atop an initial pool of BM25 results provides better efficiency-effectiveness trade-offs in low-latency settings. However, re-ranking cannot reach peak effectiveness at higher latency settings due to limitations in recall of lexical matching and provides a poor approximation of an exhaustive ColBERTv2 search. We find that recently proposed modifications to re-ranking that pull in the neighbors of top-scoring documents overcome this limitation, providing a Pareto frontier across all operational points for ColBERTv2 when evaluated using a well-annotated dataset. Curious about why re-ranking methods are highly competitive with PLAID, we analyze the token representation clusters PLAID uses for retrieval and find that most clusters are predominantly aligned with a single token and vice versa. Given the competitive trade-offs that re-ranking baselines exhibit, this work highlights the importance of carefully selecting pertinent baselines when evaluating the efficiency of retrieval engines.
- Abstract(参考訳): ColBERTv2 の PLAID (Performance-Optimized Late Interaction Driver) アルゴリズムはクラスタ化された項表現を用いて、最終(実際に)文書のスコアリングを段階的に行う。
本稿では,オリジナル作品から欠落したギャップを再現し,埋める。
PLAIDが導入するパラメータを調べたところ,Paretoフロンティアは3つのパラメータのうち,注意深いバランスで形成されていることがわかった。
次に、PLAIDと論文から欠落した重要なベースラインを比較し、語彙システムを再ランク付けする。
ColBERTv2 を BM25 の初期プール上に再ランカとして適用することにより,低レイテンシ環境での効率効率・効率性トレードオフが向上することがわかった。
しかし、語彙マッチングのリコールの制限により、より高いレイテンシ設定において、再ランクはピーク効率に達することができず、徹底したColBERTv2探索の近似が不十分である。
ColBERTv2のすべての運用ポイントにわたるParetoフロンティアを、よく注釈付きデータセットを使用して評価することで実現している。
PLAIDに対して再ランク付け手法が高い競争力を持つ理由について,PLAIDが検索に使用するトークン表現クラスタを分析し,ほとんどのクラスタが1つのトークンに概ね一致していることと,その逆について考察する。
ベースラインを再ランク付けする競争上のトレードオフを考えると,本研究は,検索エンジンの効率性を評価する上で,関連するベースラインを慎重に選択することの重要性を強調している。
関連論文リスト
- Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - Large-scale Point Cloud Registration Based on Graph Matching
Optimization [30.92028761652611]
アンダーライン最適化に基づくアンダーライングラフアンダーラインマッチングを提案する。
提案手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-02-12T03:29:35Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - CRACT: Cascaded Regression-Align-Classification for Robust Visual
Tracking [97.84109669027225]
改良された提案改良モジュールCascaded Regression-Align- Classification (CRAC)を導入する。
CRACは多くのベンチマークで最先端のパフォーマンスを得る。
OTB-2015、UAV123、NfS、VOT-2018、TrackingNet、GOT-10k、LaSOTを含む7つのベンチマークの実験において、我々のCRACTは最先端の競合他社と比較して非常に有望な結果を示している。
論文 参考訳(メタデータ) (2020-11-25T02:18:33Z) - ColBERT: Efficient and Effective Passage Search via Contextualized Late
Interaction over BERT [24.288824715337483]
ColBERTは、ディープLMを効率的な検索に適応させる新しいランキングモデルである。
我々は最近の2つの経路探索データセットを用いてColBERTを広範囲に評価した。
論文 参考訳(メタデータ) (2020-04-27T14:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。