論文の概要: FastLane: Efficient Routed Systems for Late-Interaction Retrieval
- arxiv url: http://arxiv.org/abs/2601.06389v2
- Date: Tue, 13 Jan 2026 22:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 14:49:41.08986
- Title: FastLane: Efficient Routed Systems for Late-Interaction Retrieval
- Title(参考訳): FastLane: 遅延インタラクション検索のための効率的なルーティングシステム
- Authors: Ramnath Kumar, Prateek Jain, Cho-Jui Hsieh,
- Abstract要約: FastLaneは、クエリを最も情報的な表現に動的にルーティングする新しい検索フレームワークである。
Approximate Nearest Neighbor Search (ANNS)で遅延処理モデルをブリッジすることで、FastLaneはスケーラブルで低レイテンシな検索を可能にする。
- 参考スコア(独自算出の注目度): 58.060096779432094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Late-interaction retrieval models like ColBERT achieve superior accuracy by enabling token-level interactions, but their computational cost hinders scalability and integration with Approximate Nearest Neighbor Search (ANNS). We introduce FastLane, a novel retrieval framework that dynamically routes queries to their most informative representations, eliminating redundant token comparisons. FastLane employs a learnable routing mechanism optimized alongside the embedding model, leveraging self-attention and differentiable selection to maximize efficiency. Our approach reduces computational complexity by up to 30x while maintaining competitive retrieval performance. By bridging late-interaction models with ANNS, FastLane enables scalable, low-latency retrieval, making it feasible for large-scale applications such as search engines, recommendation systems, and question-answering platforms. This work opens pathways for multi-lingual, multi-modal, and long-context retrieval, pushing the frontier of efficient and adaptive information retrieval.
- Abstract(参考訳): ColBERTのような遅延相互作用検索モデルはトークンレベルの相互作用を有効にすることで精度が向上するが、その計算コストはスケーラビリティを阻害し、近似近傍探索(ANNS)との統合を妨げている。
我々は、クエリを最も情報性の高い表現に動的にルーティングする新しい検索フレームワークであるFastLaneを紹介し、冗長なトークン比較を排除した。
FastLaneは、組み込みモデルと並行して最適化された学習可能なルーティングメカニズムを採用し、効率を最大化するために、自己アテンションと差別化可能な選択を活用する。
提案手法は,競争力のある検索性能を維持しながら,計算複雑性を最大30倍に削減する。
遅延処理モデルをANNSでブリッジすることで、FastLaneはスケーラブルで低レイテンシな検索を可能にし、検索エンジンやレコメンデーションシステム、質問応答プラットフォームといった大規模アプリケーションでも実現可能である。
この研究は、多言語、多モーダル、長文検索のための経路を開放し、効率的かつ適応的な情報検索のフロンティアを推し進める。
関連論文リスト
- Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Beyond Two-Tower Matching: Learning Sparse Retrievable
Cross-Interactions for Recommendation [80.19762472699814]
2-towerモデルは、産業アプリケーションに広くデプロイされている推奨のための一般的なマッチングフレームワークである。
機能間相互作用の制限と、オンラインサービスにおける精度の低下など、主な課題が2つある。
我々は,高度な機能相互作用だけでなく,効率的な検索もサポートするSparCodeという新しいマッチングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-30T03:13:36Z) - RELS-DQN: A Robust and Efficient Local Search Framework for
Combinatorial Optimization [11.269582666887324]
本稿では,DQNフレームワークのRELS-DQNを紹介する。
1つのアプリケーションでトレーニングされたRELS-DQNモデルを使用することで、ローカル検索アルゴリズムと既存のDQNモデルの両方に等しい解値を提供することで、様々なアプリケーションに一般化することができる。
論文 参考訳(メタデータ) (2023-04-11T18:01:49Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。