論文の概要: Towards Lossless Token Pruning in Late-Interaction Retrieval Models
- arxiv url: http://arxiv.org/abs/2504.12778v1
- Date: Thu, 17 Apr 2025 09:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:20.481849
- Title: Towards Lossless Token Pruning in Late-Interaction Retrieval Models
- Title(参考訳): 遅延相互作用検索モデルにおける無損失トーケンプルーニングに向けて
- Authors: Yuxuan Zong, Benjamin Piwowarski,
- Abstract要約: ColBERTのような後期の相互作用型ニューラルIRモデルは、多くのベンチマークで競合効率と効率のトレードオフを提供する。
すべてのドキュメントトークンのコンテキスト表現を保持するには、巨大なメモリスペースが必要です。
本稿では,文書とクエリのスコアに影響を与えることなくトークンをエミュレートする方法を定義するための原則的アプローチを提案する。
- 参考スコア(独自算出の注目度): 10.983837305643723
- License:
- Abstract: Late interaction neural IR models like ColBERT offer a competitive effectiveness-efficiency trade-off across many benchmarks. However, they require a huge memory space to store the contextual representation for all the document tokens. Some works have proposed using either heuristics or statistical-based techniques to prune tokens from each document. This however doesn't guarantee that the removed tokens have no impact on the retrieval score. Our work uses a principled approach to define how to prune tokens without impacting the score between a document and a query. We introduce three regularization losses, that induce a solution with high pruning ratios, as well as two pruning strategies. We study them experimentally (in and out-domain), showing that we can preserve ColBERT's performance while using only 30\% of the tokens.
- Abstract(参考訳): ColBERTのような後期の相互作用型ニューラルIRモデルは、多くのベンチマークで競合効率と効率のトレードオフを提供する。
しかしながら、すべてのドキュメントトークンのコンテキスト表現を保持するには、巨大なメモリスペースが必要です。
いくつかの研究は、各文書からトークンを掘り起こすために、ヒューリスティックスまたは統計に基づく手法を用いて提案している。
しかしこれは、削除されたトークンが検索スコアに影響を与えないことを保証するものではない。
私たちの作業では、ドキュメントとクエリ間のスコアに影響を与えることなく、トークンをエミュレートする方法を定義するために、原則化されたアプローチを採用しています。
3つの正規化損失を導入し、高いプルーニング比の解と2つのプルーニング戦略を導出する。
実験では,トークンの30%しか使用せず,ColBERTの性能を保てることを示す。
関連論文リスト
- Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More [18.928285521147057]
トークンがプルーニングされるべきかどうかを決定するのに、重要さは理想的な指標ではないことを示す。
DART(Duplication-Aware Reduction of Tokens)を提案する。
実験によると、DARTは88.9%の視覚トークンを出力でき、同等のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-02-17T06:56:28Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Tree Cross Attention [59.8891512435847]
Tree Cross Attention (TCA) は、Cross Attentionに基づくモジュールで、パラメータ $mathcalO(log(N))$ のトークン数からのみ情報を取得する。
さまざまな分類や不確実性回帰タスクに対して,TCAはクロスアテンションに匹敵する性能を示し,トークン効率は著しく向上した。
論文 参考訳(メタデータ) (2023-09-29T16:50:23Z) - Extract-and-Adaptation Network for 3D Interacting Hand Mesh Recovery [64.37035857740781]
我々は、EANet, extract-and-adaptation Network, EABlockをネットワークの主要コンポーネントとして提示する。
我々の2つの新しいトークンは、分離された2つの手の特徴の組み合わせによるものであるため、遠く離れたトークン問題に対してより堅牢である。
提案したEANetは、3Dインタラクションハンドベンチマークにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T04:18:03Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - Breaking BERT: Evaluating and Optimizing Sparsified Attention [13.529939025511242]
一連のアブレーション実験により,スペーシフィケーションパターンの影響を評価した。
また,少なくとも78%のスパースを有する注意を用いても,後続の変圧器層に適用した場合,性能にはほとんど影響を与えないことがわかった。
論文 参考訳(メタデータ) (2022-10-07T22:32:27Z) - AdapLeR: Speeding up Inference by Adaptive Length Reduction [15.57872065467772]
本稿では,下流性能の低下を最小限に抑えながら,BERTの計算コストを削減する手法を提案する。
提案手法は,レイヤ間のコントリビューションの少ないトークンを動的に除去し,結果として長さが短くなり,計算コストが低下する。
様々な分類タスクに関する実験では、性能の犠牲を伴わずに、推論時間中に最大22倍のスピードアップを示す。
論文 参考訳(メタデータ) (2022-03-16T23:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。