論文の概要: Layer-wise Token Compression for Efficient Document Reranking
- arxiv url: http://arxiv.org/abs/2605.20683v1
- Date: Wed, 20 May 2026 03:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.473083
- Title: Layer-wise Token Compression for Efficient Document Reranking
- Title(参考訳): 効率的な文書更新のためのレイヤワイドトークン圧縮
- Authors: Shengyao Zhuang, zhichao Xu, Ivano Lauriola,
- Abstract要約: クロスエンコーダのリランカは、推論時に長いクエリドキュメントシーケンスを処理するため、高い計算コストを被る。
中間変圧器層に適応トークンプーリングを適用するレイヤワイドトークン圧縮を提案する。
また,中間層での圧縮は評価品質を保ちながら,経路ランクでは25%,文書ランクでは最大116%向上することを示した。
- 参考スコア(独自算出の注目度): 18.48737466474846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based document cross-encoder rerankers are a central component of modern information retrieval systems. Despite their success, these models suffer from high computational costs due to processing long query-document sequences at inference time. A known approach to improve efficiency is token compression, which consists of aggregating groups of tokens together in the initial embedding layer, reducing the effective number of tokens, and making the computation faster. While token compression has proven to be successful for bi-encoder retrievers, we empirically observed that this approach may be ineffective for cross-encoder rerankers. In this paper, we propose Layer-wise Token Compression (LTC), which applies adaptive token pooling at intermediate transformer layers. Through extensive ablation studies on MS MARCO passage and document ranking tasks, we demonstrate that compression at middle layers preserves ranking quality while increasing inference QPS by up to 25% for passage ranking and up to 116% for document ranking. We also extend LTC to listwise LLM rerankers and show that the same approach can be easily applied to long-context listwise reranking, where the QPS improvements are even greater. More surprisingly, when applying rerankers trained on short passages to long-document ranking tasks, models trained with compression outperform their uncompressed counterparts, suggesting that compression may act as a beneficial regularizer that encourages length-invariant representations.
- Abstract(参考訳): トランスフォーマーベースの文書クロスエンコーダ・リランカは、現代の情報検索システムの中心的なコンポーネントである。
その成功にもかかわらず、これらのモデルは推論時に長いクエリドキュメントシーケンスを処理するため、高い計算コストに悩まされる。
トークン圧縮は、初期埋め込み層にトークンのグループをまとめて構成し、トークンの有効個数を減らし、計算を高速化する。
トークン圧縮はバイエンコーダレトリバーには有効であることが証明されているが、我々はこの手法がクロスエンコーダリランカには有効でないことを実証的に観察した。
本稿では,中間変圧器層に適応トークンプーリングを適用する層ワイドトークン圧縮(LTC)を提案する。
MARCOパスと文書ランキングタスクに関する広範囲にわたるアブレーション研究を通じて、中間層での圧縮がランキング品質を保ちつつ、推論QPSを25%まで増加させ、文書ランキングを最大116%まで向上させることを示した。
またLCCをリストワイズLLMリランカに拡張し、QPSの改善がさらに大きい長文リストワイズに同じアプローチを適用可能であることを示す。
さらに驚くべきことに、長い文書のランクタスクに短いパスでトレーニングされたリランカーを適用する場合、圧縮で訓練されたモデルは圧縮されていないタスクよりも優れており、圧縮は長さ不変表現を促進する有益な正規化器として機能する可能性があることを示唆している。
関連論文リスト
- CORE-RAG: Lossless Compression for Retrieval-Augmented LLMs via Reinforcement Learning [22.93037884068796]
Retrieval-Augmented Generation (RAG) は、知識更新のタイムラインと大規模言語モデルにおける応答の事実的正確性を高めるための有望なアプローチとして登場した。
RAG用に調整された文書圧縮への既存のアプローチは、しばしばタスクパフォーマンスを低下させる。
我々は、RAGにおけるロスレスコンテキスト圧縮の新しい手法であるCOREを提案する。
論文 参考訳(メタデータ) (2025-08-24T12:21:50Z) - Reranking with Compressed Document Representation [7.894770087349908]
文書を固定サイズの埋め込み表現に圧縮することで、入力サイズを小さくする。
次に、蒸留により圧縮された入力を使用するようにリランカーに教える。
この圧縮された入力を用いたトレーニングされたリランカーは、数十億のモデルに基づいているが、有効性と効率の両面でより小さなリランカーに挑戦することができる。
論文 参考訳(メタデータ) (2025-05-21T11:35:11Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Position IDs Matter: An Enhanced Position Layout for Efficient Context Compression in Large Language Models [34.92897341188079]
文脈情報を圧縮するために特別なトークンを使うことは、大規模言語モデル(LLM)の一般的な慣習である。
位置IDの調整のみでLLMの文脈圧縮能力を向上させる手法であるtextbfEnhanced Position Layout (EPL) を提案する。
論文 参考訳(メタデータ) (2024-09-22T08:51:18Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - SDR: Efficient Neural Re-ranking using Succinct Document Representation [4.9278175139681215]
本稿では, 強調圧縮した中間文書表現を演算する文書表現方式を提案する。
提案手法は効率が良く, 同一品質の圧縮速度が4x-11.6倍向上した。
論文 参考訳(メタデータ) (2021-10-03T07:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。