論文の概要: SeDR: Segment Representation Learning for Long Documents Dense Retrieval
- arxiv url: http://arxiv.org/abs/2211.10841v1
- Date: Sun, 20 Nov 2022 01:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:35:19.143233
- Title: SeDR: Segment Representation Learning for Long Documents Dense Retrieval
- Title(参考訳): sedr: 長文高密度検索のためのセグメント表現学習
- Authors: Junying Chen, Qingcai Chen, Dongfang Li, Yutao Huang
- Abstract要約: 長文Dense Retrieval(SeDR)のためのセグメンテーション表現学習を提案する。
SeDRは長いドキュメントを文書認識とセグメント認識の表現にエンコードするが、分割とプーリングの複雑さを保っている。
MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 17.864362372788374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Dense Retrieval (DR) has become a promising solution to document
retrieval, where document representations are used to perform effective and
efficient semantic search. However, DR remains challenging on long documents,
due to the quadratic complexity of its Transformer-based encoder and the finite
capacity of a low-dimension embedding. Current DR models use suboptimal
strategies such as truncating or splitting-and-pooling to long documents
leading to poor utilization of whole document information. In this work, to
tackle this problem, we propose Segment representation learning for long
documents Dense Retrieval (SeDR). In SeDR, Segment-Interaction Transformer is
proposed to encode long documents into document-aware and segment-sensitive
representations, while it holds the complexity of splitting-and-pooling and
outperforms other segment-interaction patterns on DR. Since GPU memory
requirements for long document encoding causes insufficient negatives for DR
training, Late-Cache Negative is further proposed to provide additional cache
negatives for optimizing representation learning. Experiments on MS MARCO and
TREC-DL datasets show that SeDR achieves superior performance among DR models,
and confirm the effectiveness of SeDR on long document retrieval.
- Abstract(参考訳): 近年、Dense Retrieval (DR) は文書検索において有望なソリューションとなり、文書表現を用いて効率的な意味探索を行っている。
しかし、DRはTransformerベースのエンコーダの2次複雑さと低次元埋め込みの有限容量のため、長い文書では依然として困難である。
現在のDRモデルは、長いドキュメントへの切り離しやスプリット・アンド・プールのような準最適戦略を使用しており、ドキュメント全体の利用が不十分である。
本研究では,この問題に対処するために,長い文書を対象としたセグメンテーション表現学習(SeDR)を提案する。
sedrでは、長い文書を文書認識およびセグメント認識表現にエンコードするためにセグメント相互作用トランスが提案されているが、長い文書エンコーディングに対するgpuメモリの要求はdrトレーニングに不十分な負をもたらすため、遅延キャッシュ負は表現学習を最適化するための追加のキャッシュ負を提供するためにさらに提案されている。
MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を示し,長期文書検索における SeDR の有効性を確認した。
関連論文リスト
- Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - ODSum: New Benchmarks for Open Domain Multi-Document Summarization [30.875191848268347]
Open- Domain Multi-Document Summarization (ODMDS) は、大量のドキュメントを一貫性のある簡潔な要約に集約するための重要なツールである。
我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T11:27:34Z) - Adapting Learned Sparse Retrieval for Long Documents [23.844134960568976]
学習されたスパース検索(LSR)は、クエリとドキュメントを語彙に整合したスパース重みベクトルに変換するニューラルネットワークのファミリーである。
SpladeのようなLSRアプローチは短いパスでうまく機能するが、どれだけ長いドキュメントを扱うかは定かではない。
我々は,LSRを長い文書に適用するための既存の集約手法について検討し,LSRが長い文書を扱うためには近位スコアリングが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-05-29T13:50:16Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - SDR: Efficient Neural Re-ranking using Succinct Document Representation [4.9278175139681215]
本稿では, 強調圧縮した中間文書表現を演算する文書表現方式を提案する。
提案手法は効率が良く, 同一品質の圧縮速度が4x-11.6倍向上した。
論文 参考訳(メタデータ) (2021-10-03T07:43:16Z) - Denoising Relation Extraction from Document-level Distant Supervision [92.76441007250197]
本稿では,文書レベルのDSデータを複数の事前学習タスクで認知するDocREのための新しい事前学習モデルを提案する。
大規模DocREベンチマーク実験の結果,ノイズの多いDSデータから有用な情報を抽出し,有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-08T02:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。