論文の概要: ColBERT-serve: Efficient Multi-Stage Memory-Mapped Scoring
- arxiv url: http://arxiv.org/abs/2504.14903v1
- Date: Mon, 21 Apr 2025 07:18:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:11:23.32613
- Title: ColBERT-serve: Efficient Multi-Stage Memory-Mapped Scoring
- Title(参考訳): ColBERT-serve: 効率的なマルチステージメモリマップスコーリング
- Authors: Kaili Huang, Thejas Venkatesh, Uma Dingankar, Antonio Mallia, Daniel Campos, Jian Jiao, Christopher Potts, Matei Zaharia, Kwabena Boahen, Omar Khattab, Saarthak Sarup, Keshav Santhanam,
- Abstract要約: 我々は、ColBERTインデックスにメモリマッピング戦略を適用する新しいサービスシステムであるColBERT-serveを提案する。
我々は、ColBERTインデックスにメモリマッピング戦略を適用する新しいサービスシステムであるColBERT-serveを提案する。
- 参考スコア(独自算出の注目度): 39.78258323771335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study serving retrieval models, specifically late interaction models like ColBERT, to many concurrent users at once and under a small budget, in which the index may not fit in memory. We present ColBERT-serve, a novel serving system that applies a memory-mapping strategy to the ColBERT index, reducing RAM usage by 90% and permitting its deployment on cheap servers, and incorporates a multi-stage architecture with hybrid scoring, reducing ColBERT's query latency and supporting many concurrent queries in parallel.
- Abstract(参考訳): 我々は、検索モデル、特にColBERTのような遅延相互作用モデルについて、インデックスがメモリに収まらない小さな予算の下で、同時に多くのユーザに対して調査する。
ColBERT-serveは、ColBERTインデックスにメモリマッピング戦略を適用し、RAM使用率を90%削減し、安価なサーバへのデプロイを可能にする新しいサービスシステムである。
関連論文リスト
- A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever [6.221757399678299]
ColBERTの遅延相互作用評価は、クロスエンコーダに見られる共同クエリ文書の注意を近似する。
我々の新しいモデルであるJina-ColBERT-v2は、英語および多言語検索タスクで高い性能を示す。
論文 参考訳(メタデータ) (2024-08-29T16:21:00Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - SPLATE: Sparse Late Interaction Retrieval [13.607085390630647]
SPLATEは、MLMアダプタを学習するColBERTv2モデルの軽量化である。
パイプラインはPLAID ColBERTv2エンジンと同じ効率を10ms以下で検索可能な50の文書を再ランク付けすることで実現している。
論文 参考訳(メタデータ) (2024-04-22T07:51:13Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - Introducing Neural Bag of Whole-Words with ColBERTer: Contextualized
Late Interactions using Enhanced Reduction [10.749746283569847]
ColBERTerは、文脈化された遅延相互作用(ColBERT)と強化されたリダクションを用いたニューラル検索モデルである。
マルチベクタコンポーネントのために、ColBERTerは、各ドキュメントの用語に対するユニークな全ワード表現を学習することで、ドキュメントごとの格納数を減らす。
MS MARCOとTREC-DLのコレクションの結果から、ColBERTerは最大2.5倍のストレージフットプリントを削減できるが、有効性は維持できる。
論文 参考訳(メタデータ) (2022-03-24T14:28:07Z) - GEMEL: Model Merging for Memory-Efficient, Real-Time Video Analytics at
the Edge [10.276140547573437]
エッジビジョンモデル間のアーキテクチャ的類似性を利用した新しいメモリ管理手法であるモデルマージを提案する。
多様なワークロードに対する実験により、GEMELはメモリ使用量を最大60.7%削減し、時間/空間の共有のみと比較して、全体的な精度を8~39%向上することが明らかになった。
論文 参考訳(メタデータ) (2022-01-19T16:45:04Z) - A Study on Token Pruning for ColBERT [0.7646713951724011]
ColBERTモデルは最近、有効なBERTベースのランク付けとして提案されている。
モデルの大きな欠点はインデックスサイズであり、コレクション内のトークンの数と線形にスケールする。
本稿では,この問題に対処するために,ColBERTモデルの様々な設計について検討する。
論文 参考訳(メタデータ) (2021-12-13T10:24:54Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Learning to Ignore: Long Document Coreference with Bounded Memory Neural
Networks [65.3963282551994]
我々は、すべてのエンティティをメモリに保持することは不要であると主張し、同時に少数のエンティティだけを追跡するメモリ拡張ニューラルネットワークを提案する。
a)OntoNotesとLitBankの高メモリ・計算要求モデルと競合する傾向にあり,(b)ルールベースの戦略よりも容易に効率の良いメモリ管理戦略を学習できることを示す。
論文 参考訳(メタデータ) (2020-10-06T15:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。