Fugu-MT 論文翻訳(概要): WARP: An Efficient Engine for Multi-Vector Retrieval

論文の概要: WARP: An Efficient Engine for Multi-Vector Retrieval

arxiv url: http://arxiv.org/abs/2501.17788v1
Date: Wed, 29 Jan 2025 17:26:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-30 22:32:42.674318
Title: WARP: An Efficient Engine for Multi-Vector Retrieval
Title（参考訳）: WARP: マルチベクトル検索のための効率的なエンジン
Authors: Jan Luca Scheerer, Matei Zaharia, Christopher Potts, Gustavo Alonso, Omar Khattab,
Abstract要約: WARPは、XTRベースのColBERTレシーバーの効率を大幅に改善する検索エンジンである。 XTRのリファレンス実装と比較して、エンドツーエンドのレイテンシを41倍削減する。公式のColBERTv2 PLAIDエンジンよりも3倍のスピードアップを実現している。
参考スコア（独自算出の注目度）: 42.128201454569165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the efficiency of multi-vector retrieval methods like ColBERT and its recent variant XTR. We introduce WARP, a retrieval engine that drastically improves the efficiency of XTR-based ColBERT retrievers through three key innovations: (1) WARP$_\text{SELECT}$ for dynamic similarity imputation, (2) implicit decompression to bypass costly vector reconstruction, and (3) a two-stage reduction process for efficient scoring. Combined with optimized C++ kernels and specialized inference runtimes, WARP reduces end-to-end latency by 41x compared to XTR's reference implementation and thereby achieves a 3x speedup over PLAID from the the official ColBERT implementation. We study the efficiency of multi-vector retrieval methods like ColBERT and its recent variant XTR. We introduce WARP, a retrieval engine that drastically improves the efficiency of XTR-based ColBERT retrievers through three key innovations: (1) WARP$_\text{SELECT}$ for dynamic similarity imputation, (2) implicit decompression during retrieval, and (3) a two-stage reduction process for efficient scoring. Thanks also to highly-optimized C++ kernels and to the adoption of specialized inference runtimes, WARP can reduce end-to-end query latency relative to XTR's reference implementation by 41x. And it thereby achieves a 3x speedup over the official ColBERTv2 PLAID engine, while preserving retrieval quality.
Abstract（参考訳）: 我々はColBERTのようなマルチベクトル検索手法とその最近の変種XTRの効率について検討する。我々は,(1) WARP$_\text{SELECT}$ for dynamic similarity imputation, (2) implicit decompression to bypassly vector reconstruction,(3) a two-stage reduction process for efficient scoreという3つの重要な革新を通じて,XTRベースのColBERTレトリバーの効率を大幅に向上させる検索エンジンであるWARPを紹介する。最適化されたC++カーネルと特別な推論ランタイムを組み合わせることで、WARPはXTRのリファレンス実装と比べてエンドツーエンドのレイテンシを41倍削減し、公式のColBERT実装からPLAIDよりも3倍のスピードアップを実現している。我々はColBERTのようなマルチベクトル検索手法とその最近の変種XTRの効率について検討する。提案する検索エンジンは,(1) WARP$_\text{SELECT}$ for dynamic similarity imputation,(2) 検索中の暗黙の圧縮,(3) 効率的なスコアリングのための2段階の削減プロセスである。高度に最適化されたC++カーネルと特別な推論ランタイムの採用により、WARPはXTRのリファレンス実装と比較して、エンドツーエンドのクエリレイテンシを41倍に削減できる。これにより、検索品質を維持しつつ、公式のColBERTv2 PLAIDエンジンの3倍の高速化を実現する。

関連論文リスト

Multivector Reranking in the Era of Strong First-Stage Retrievers [11.098422338598454]
2つの公開データセット上で、最先端のマルチベクタ検索手法を再現する。トークンレベルの集合フェーズを単一ベクトル文書検索器に置き換えることで,より小さく,より意味的に一貫性のある候補セットが生成されることを示す。我々の2段階のアプローチは、最先端のマルチベクター検索システムに対して24ドル以上のスピードアップを実現し、同等または優れた検索品質を維持しています。
論文参考訳（メタデータ） (2026-01-08T18:22:18Z)
SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2026-01-05T21:02:49Z)
HARP-NeXt: High-Speed and Accurate Range-Point Fusion Network for 3D LiDAR Semantic Segmentation [39.58684038370709]
LiDARセマンティックセグメンテーションは、自動運転車や移動ロボットにとって不可欠である。従来の最先端の手法は、精度とスピードのトレードオフに直面していることが多い。本稿では,高速かつ高精度なLiDARセマンティックセグメンテーションネットワークであるHARP-NeXtを紹介する。
論文参考訳（メタデータ） (2025-10-08T10:46:07Z)
Exploring Diffusion with Test-Time Training on Efficient Image Restoration [1.3830502387127932]
DiffRWKVIRは、効率的な拡散を伴うテスト時間トレーニング(TTT)を統合する新しいフレームワークである。本手法は,ハードウェアの最適化による適応的,高効率な画像復元のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-06-17T14:01:59Z)
MUVERA: Multi-Vector Retrieval via Fixed Dimensional Encodings [15.275864151890511]
マルチベクトル探索を単一ベクトル類似性探索に還元する検索機構であるMUVERA(MUlti-VEctor Retrieval Algorithm)を導入する。 MUVERAはBEIR検索データセットの多種多様なセットに対して、一貫して優れたエンドツーエンドのリコールとレイテンシを実現する。
論文参考訳（メタデータ） (2024-05-29T20:40:20Z)
Constructing Tree-based Index for Efficient and Effective Dense Retrieval [26.706985694158384]
JTRは、TReeベースのインデックスとクエリエンコーディングの合同最適化の略である。我々は、木に基づくインデックスとクエリエンコーダをエンドツーエンドにトレーニングするために、新しい統合されたコントラスト学習損失を設計する。実験結果から,JTRは高いシステム効率を維持しつつ,検索性能が向上することが示された。
論文参考訳（メタデータ） (2023-04-24T09:25:39Z)
CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文参考訳（メタデータ） (2022-11-18T18:27:35Z)
Hyperbolic Cosine Transformer for LiDAR 3D Object Detection [6.2216654973540795]
我々は,LiDAR点雲から3次元物体を検出するための2段階双曲型コサイントランス (ChTR3D) を提案する。提案したChTR3Dは、線形複雑性におけるコッシュアテンションを適用して、点間のリッチな文脈関係を符号化することで、提案を洗練する。広く使用されているKITTIデータセットの実験では、バニラアテンションと比較して、コッシュアテンションは競合性能による推論速度を大幅に改善することが示された。
論文参考訳（メタデータ） (2022-11-10T13:54:49Z)
Pair DETR: Contrastive Learning Speeds Up DETR Training [0.6491645162078056]
本稿では、DreTRの主な問題である緩やかな収束に対処するための簡単なアプローチを提案する。 2つのデコーダを用いて、一対のキーポイント、左上隅、中央としてオブジェクト境界ボックスを検出する。実験により、Pair DETRは元のDETRより少なくとも10倍早く収束し、トレーニング中にConditional DETRより1.5倍速く収束できることが示された。
論文参考訳（メタデータ） (2022-10-29T03:02:49Z)
Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文参考訳（メタデータ） (2022-10-23T00:32:04Z)
A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-29T07:41:11Z)
Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity [10.098578160958946]
我々は,COCOデータセット上に10%エンコーダトークンしか持たなくても,Sparse DETRがDeformable DETRよりも優れた性能を実現することを示す。エンコーダトークンだけがスペーサー化され、総計算コストは38%減少し、フレーム/秒(FPS)はDeformable DETRに比べて42%増加する。
論文参考訳（メタデータ） (2021-11-29T05:22:46Z)
CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。 CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。 CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文参考訳（メタデータ） (2021-10-21T06:26:31Z)
HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。 HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。 EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文参考訳（メタデータ） (2021-07-12T18:46:34Z)
Trilevel Neural Architecture Search for Efficient Single Image Super-Resolution [127.92235484598811]
本稿では,高効率単一画像超解像(SR)のための3レベルニューラルネットワーク探索法を提案する。離散探索空間をモデル化するために、離散探索空間に新たな連続緩和を適用し、ネットワークパス、セル操作、カーネル幅の階層的混合を構築する。階層型スーパーネット方式による最適化を行うため,効率的な探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-17T12:19:49Z)
SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文参考訳（メタデータ） (2020-07-26T12:32:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。