論文の概要: SDR: Efficient Neural Re-ranking using Succinct Document Representation
- arxiv url: http://arxiv.org/abs/2110.02065v1
- Date: Sun, 3 Oct 2021 07:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 13:58:58.491184
- Title: SDR: Efficient Neural Re-ranking using Succinct Document Representation
- Title(参考訳): SDR: 副次的文書表現を用いた高能率ニューラルリグレード
- Authors: Nachshon Cohen, Amit Portnoy, Besnik Fetahu, and Amir Ingber
- Abstract要約: 本稿では, 強調圧縮した中間文書表現を演算する文書表現方式を提案する。
提案手法は効率が良く, 同一品質の圧縮速度が4x-11.6倍向上した。
- 参考スコア(独自算出の注目度): 4.9278175139681215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT based ranking models have achieved superior performance on various
information retrieval tasks. However, the large number of parameters and
complex self-attention operation come at a significant latency overhead. To
remedy this, recent works propose late-interaction architectures, which allow
pre-computation of intermediate document representations, thus reducing the
runtime latency. Nonetheless, having solved the immediate latency issue, these
methods now introduce storage costs and network fetching latency, which limits
their adoption in real-life production systems.
In this work, we propose the Succinct Document Representation (SDR) scheme
that computes \emph{highly compressed} intermediate document representations,
mitigating the storage/network issue. Our approach first reduces the dimension
of token representations by encoding them using a novel autoencoder
architecture that uses the document's textual content in both the encoding and
decoding phases. After this token encoding step, we further reduce the size of
entire document representations using a modern quantization technique.
Extensive evaluations on passage re-reranking on the MSMARCO dataset show
that compared to existing approaches using compressed document representations,
our method is highly efficient, achieving 4x-11.6x better compression rates for
the same ranking quality.
- Abstract(参考訳): BERTベースのランキングモデルは、様々な情報検索タスクにおいて優れたパフォーマンスを達成している。
しかし、大量のパラメータと複雑な自己注意操作は、かなりの遅延オーバーヘッドとなる。
これを改善するために、近年の研究では、中間文書表現の事前計算を可能にする遅延処理アーキテクチャを提案する。
それでも、即時レイテンシの問題を解決したこれらのメソッドは、ストレージコストとネットワークフェッチレイテンシを導入し、実運用システムへの導入を制限した。
そこで本研究では,SDR(Succinct Document Representation)方式を提案する。
本手法は, 文書の符号化と復号の両方において, 文書のテキスト内容を利用する新しいオートエンコーダアーキテクチャを用いて, トークン表現の次元を削減する。
このトークンエンコーディングステップの後、現代的な量子化技術を用いて、ドキュメント表現全体のサイズをさらに削減します。
MSMARCOデータセットのパス再評価により, 圧縮文書表現を用いた既存手法と比較して, 高い効率性を示し, 4x-11.6倍の圧縮率を実現した。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - Planning Ahead in Generative Retrieval: Guiding Autoregressive Generation through Simultaneous Decoding [23.061797784952855]
本稿では,文書識別子の自動生成を支援する新しい最適化および復号化手法であるPAGを紹介する。
MSMARCO と TREC Deep Learning Track のデータによる実験の結果,PAG は最先端の生成的検索モデルよりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-22T21:50:01Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - Faster DAN: Multi-target Queries with Document Positional Encoding for
End-to-end Handwritten Document Recognition [1.7875811547963403]
より高速なDANは、予測時に認識プロセスを高速化するための2段階の戦略である。
RIMES 2009、READ 2016、MAURDORデータセットの1ページと2ページのイメージ全体の少なくとも4倍高速である。
論文 参考訳(メタデータ) (2023-01-25T13:55:14Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Compressibility of Distributed Document Representations [0.0]
CoReは表現圧縮に適した表現学習者に依存しないフレームワークである。
文脈的および非文脈的文書表現、異なる圧縮レベル、および9つの異なる圧縮アルゴリズムを考慮すると、CoReの振る舞いを示す。
10万以上の圧縮実験に基づく結果から、CoReは圧縮効率と性能の非常に良いトレードオフを提供することを示している。
論文 参考訳(メタデータ) (2021-10-14T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。