論文の概要: PLAID: An Efficient Engine for Late Interaction Retrieval
- arxiv url: http://arxiv.org/abs/2205.09707v1
- Date: Thu, 19 May 2022 17:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 15:48:51.213621
- Title: PLAID: An Efficient Engine for Late Interaction Retrieval
- Title(参考訳): PLAID: 遅延インタラクション検索のための効率的なエンジン
- Authors: Keshav Santhanam, Omar Khattab, Christopher Potts, Matei Zaharia
- Abstract要約: PLAIDは、新しいセントロイド相互作用機構を用いて、素早く低音域を除去する。
PLAIDは、センチロイドの相互作用と、センチロイドの袋を分散させるメカニズムであるセンチロイドプルーニングを使用する。
これにより、ColBERTv2を使用したPLAIDエンジンは、GPU上で数十ミリ秒、大規模なCPU上ではわずか数百ミリ秒のレイテンシを実現することができる。
- 参考スコア(独自算出の注目度): 24.556628991906607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models are increasingly important components across
multiple information retrieval (IR) paradigms. Late interaction, introduced
with the ColBERT model and recently refined in ColBERTv2, is a popular paradigm
that holds state-of-the-art status across many benchmarks. To dramatically
speed up the search latency of late interaction, we introduce the
Performance-optimized Late Interaction Driver (PLAID). Without impacting
quality, PLAID swiftly eliminates low-scoring passages using a novel centroid
interaction mechanism that treats every passage as a lightweight bag of
centroids. PLAID uses centroid interaction as well as centroid pruning, a
mechanism for sparsifying the bag of centroids, within a highly-optimized
engine to reduce late interaction search latency by up to 7$\times$ on a GPU
and 45$\times$ on a CPU against vanilla ColBERTv2, while continuing to deliver
state-of-the-art retrieval quality. This allows the PLAID engine with ColBERTv2
to achieve latency of tens of milliseconds on a GPU and tens or just few
hundreds of milliseconds on a CPU at large scale, even at the largest scales we
evaluate with 140M passages.
- Abstract(参考訳): 事前学習された言語モデルは、複数の情報検索(ir)パラダイムにおいて、ますます重要なコンポーネントである。
ColBERTモデルで導入され、最近ColBERTv2で改良された後期インタラクションは、多くのベンチマークで最先端のステータスを保持する一般的なパラダイムである。
遅延インタラクションの検索レイテンシを劇的に高速化するために,plaid(performance-optimized late interaction driver)を導入する。
PLAIDは、品質に影響を与えずに、全ての通路を軽量なセントロイド袋として扱う、新しいセントロイド相互作用機構を用いて、素早く低スコアの通路を除去する。
PLAIDは、Centroidインタラクションだけでなく、Centroidプルーニング(Centroid pruning)も使用しています。これは、高度に最適化されたエンジン内で、遅延インタラクション検索のレイテンシをGPU上で最大7$\times$、バニラColBERTv2に対してCPU上で45$\times$に削減します。
これにより、corbertv2を搭載した格子縞エンジンは、gpu上で数十ミリ秒、大規模なcpuで数十ミリ秒、あるいは数百ミリ秒のレイテンシを実現することができます。
関連論文リスト
- SPLATE: Sparse Late Interaction Retrieval [13.607085390630647]
SPLATEは、MLMアダプタを学習するColBERTv2モデルの軽量化である。
パイプラインはPLAID ColBERTv2エンジンと同じ効率を10ms以下で検索可能な50の文書を再ランク付けすることで実現している。
論文 参考訳(メタデータ) (2024-04-22T07:51:13Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - ColBERTv2: Effective and Efficient Retrieval via Lightweight Late
Interaction [15.336103841957328]
ColBERTv2は、攻撃的な残留圧縮機構と識別された監視戦略を結合するレトリバーである。
ColBERTv2をさまざまなベンチマークで評価し,トレーニング領域内外における最先端の品質を確立した。
論文 参考訳(メタデータ) (2021-12-02T18:38:50Z) - Real-Time Monocular Human Depth Estimation and Segmentation on Embedded
Systems [13.490605853268837]
移動中の歩行者に対する衝突回避を実現するためにシーンの深さを推定することは、ロボット分野における決定的かつ基本的な問題である。
本稿では,室内環境における人体深度推定とセグメンテーションを高速かつ高精度に行うための,新しい低複雑性ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-08-24T03:26:08Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。