論文の概要: Efficient Listwise Reranking with Compressed Document Representations
- arxiv url: http://arxiv.org/abs/2604.26483v1
- Date: Wed, 29 Apr 2026 09:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.34032
- Title: Efficient Listwise Reranking with Compressed Document Representations
- Title(参考訳): 圧縮された文書表現を用いた効率的なリストリグレード
- Authors: Hervé Déjean, Stéphane Clinchant,
- Abstract要約: 本稿では,文書をマルチトークンの固定サイズ埋め込み表現に圧縮する効率的なリストワイド・リランカであるRRKを紹介する。
蒸留による簡単な訓練は、このリッチ圧縮表現とリストワイズ再ランクの組み合わせが、非常に効率的で効果的なシステムであることを示している。
- 参考スコア(独自算出の注目度): 10.623994225850046
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reranking, the process of refining the output from a first-stage retriever, is often considered computationally expensive, especially when using Large Language Models (LLMs). A common approach to mitigate this cost involves utilizing smaller LLMs or controlling input length. Inspired by recent advances in document compression for retrieval-augmented generation (RAG), we introduce RRK, an efficient and effective listwise reranker compressing documents into multi-token fixed-size embedding representations. Our simple training via distillation shows that this combination of rich compressed representations and listwise reranking yields a highly efficient and effective system. In particular, our 8B-parameter model runs 3x-18x faster than smaller rerankers (0.6-4B parameters) while matching or outperforming them in effectiveness. The efficiency gains are even more striking on long-document benchmarks, where RRK widens its advantage further.
- Abstract(参考訳): リグレードは、特にLLM(Large Language Models)を使用する場合、第一段階のレトリバーから出力を精製するプロセスは、計算コストが高いと考えられていることが多い。
このコストを軽減するための一般的なアプローチは、より小さなLCMを利用するか、入力長を制御することである。
検索拡張生成(RAG)における文書圧縮の最近の進歩に触発されて,文書をマルチトークンの固定サイズ埋め込み表現に効率よく効率的なリストワイド・リランカであるRRKを導入した。
蒸留による簡単な訓練は、このリッチ圧縮表現とリストワイズ再ランクの組み合わせが、非常に効率的で効果的なシステムであることを示している。
特に、我々の8Bパラメータモデルは、より小さなリランカー(0.6-4Bパラメータ)よりも3x-18倍高速に動作します。
RRKの優位性はさらに拡大している。
関連論文リスト
- Gradually Compacting Large Language Models for Reasoning Like a Boiling Frog [72.4168434368873]
大きな言語モデル(LLM)は印象的な推論能力を示しているが、その相当なサイズは、しばしばかなりの計算資源を必要とする。
圧縮過程を細かな繰り返しに分割する段階的圧縮法を提案する。
この「沸騰するカエル」効果の反復的なアプローチは、急激な性能損失を伴わずに、モデルを段階的に圧縮することができる。
論文 参考訳(メタデータ) (2026-02-04T06:56:52Z) - Efficiency Optimizations for Superblock-based Sparse Retrieval [3.8177503173791756]
本稿では,競争的妥当性を保ちながら,超ブロックスコアのオーバーヘッドを低減する,シンプルで効果的な超ブロックプルーニング手法を提案する。
このスキームは、コンパクトなインデックス構造と、LSRモデルと複数のデータセットで有効である堅牢なゼロショット構成を組み合わせる。
論文 参考訳(メタデータ) (2026-02-02T22:42:22Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - Memory-Efficient Fine-Tuning via Low-Rank Activation Compression [16.44044624606008]
Low-Rank Activation Compression (LoRAct) はメモリ効率の良い微調整方式である。
LoRActは広く採用されているLoRA法と比較して、アクティベーションメモリを約80%削減する。
論文 参考訳(メタデータ) (2025-09-27T19:48:32Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。
RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。
また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文 参考訳(メタデータ) (2025-06-01T23:49:14Z) - Reranking with Compressed Document Representation [7.894770087349908]
文書を固定サイズの埋め込み表現に圧縮することで、入力サイズを小さくする。
次に、蒸留により圧縮された入力を使用するようにリランカーに教える。
この圧縮された入力を用いたトレーニングされたリランカーは、数十億のモデルに基づいているが、有効性と効率の両面でより小さなリランカーに挑戦することができる。
論文 参考訳(メタデータ) (2025-05-21T11:35:11Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。
本稿では,LCLM検索に適した新しい圧縮手法を提案する。
また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文 参考訳(メタデータ) (2024-12-24T07:30:55Z) - Static Pruning in Dense Retrieval using Matrix Decomposition [12.899105656025018]
密集検索の時代には、文書のインデックス化と検索は主に、文書を埋め込みに変換するエンコーディングモデルに基づいている。
近年の研究では, 組込みサイズを減らし, 回収効率を向上できる可能性が示唆されている。
そこで本研究では,主成分分析による埋込み寸法の低減のための新しい静的プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T09:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。