論文の概要: Fine-Grained Distillation for Long Document Retrieval
- arxiv url: http://arxiv.org/abs/2212.10423v1
- Date: Tue, 20 Dec 2022 17:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:40:41.993385
- Title: Fine-Grained Distillation for Long Document Retrieval
- Title(参考訳): 長期文書検索のための細粒度蒸留
- Authors: Yucheng Zhou, Tao Shen, Xiubo Geng, Chongyang Tao, Guodong Long, Can
Xu, Daxin Jiang
- Abstract要約: ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
- 参考スコア(独自算出の注目度): 86.39802110609062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long document retrieval aims to fetch query-relevant documents from a
large-scale collection, where knowledge distillation has become de facto to
improve a retriever by mimicking a heterogeneous yet powerful cross-encoder.
However, in contrast to passages or sentences, retrieval on long documents
suffers from the scope hypothesis that a long document may cover multiple
topics. This maximizes their structure heterogeneity and poses a
granular-mismatch issue, leading to an inferior distillation efficacy. In this
work, we propose a new learning framework, fine-grained distillation (FGD), for
long-document retrievers. While preserving the conventional dense retrieval
paradigm, it first produces global-consistent representations crossing
different fine granularity and then applies multi-granular aligned distillation
merely during training. In experiments, we evaluate our framework on two
long-document retrieval benchmarks, which show state-of-the-art performance.
- Abstract(参考訳): ロングドキュメント検索は、知識蒸留が事実上のデファクトとなり、異質だが強力なクロスエンコーダを模倣して検索者を改善する大規模コレクションからクエリ関連文書を取得することを目的としている。
しかし、文章や文とは対照的に、長い文書の検索は、長い文書が複数の話題をカバーする可能性があるというスコープ仮説に苦しむ。
これは構造上の不均一性を最大化し、粒状ミスマッチ問題を引き起こし、低い蒸留効果をもたらす。
そこで本研究では, 長期文書検索者向けに, 微粒蒸留(fgd)という新しい学習フレームワークを提案する。
従来の密集検索パラダイムを保ちながら、まず異なる粒度を横断するグローバル一貫性の表現を生成し、訓練中にのみ多粒配列蒸留を適用する。
実験では,2つの長期文書検索ベンチマークのフレームワークの評価を行った。
関連論文リスト
- DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文 参考訳(メタデータ) (2022-12-10T11:32:38Z) - SeDR: Segment Representation Learning for Long Documents Dense Retrieval [17.864362372788374]
長文Dense Retrieval(SeDR)のためのセグメンテーション表現学習を提案する。
SeDRは長いドキュメントを文書認識とセグメント認識の表現にエンコードするが、分割とプーリングの複雑さを保っている。
MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-11-20T01:28:44Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。