論文の概要: Fine-Grained Distillation for Long Document Retrieval
- arxiv url: http://arxiv.org/abs/2212.10423v1
- Date: Tue, 20 Dec 2022 17:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:40:41.993385
- Title: Fine-Grained Distillation for Long Document Retrieval
- Title(参考訳): 長期文書検索のための細粒度蒸留
- Authors: Yucheng Zhou, Tao Shen, Xiubo Geng, Chongyang Tao, Guodong Long, Can
Xu, Daxin Jiang
- Abstract要約: ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
- 参考スコア(独自算出の注目度): 86.39802110609062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long document retrieval aims to fetch query-relevant documents from a
large-scale collection, where knowledge distillation has become de facto to
improve a retriever by mimicking a heterogeneous yet powerful cross-encoder.
However, in contrast to passages or sentences, retrieval on long documents
suffers from the scope hypothesis that a long document may cover multiple
topics. This maximizes their structure heterogeneity and poses a
granular-mismatch issue, leading to an inferior distillation efficacy. In this
work, we propose a new learning framework, fine-grained distillation (FGD), for
long-document retrievers. While preserving the conventional dense retrieval
paradigm, it first produces global-consistent representations crossing
different fine granularity and then applies multi-granular aligned distillation
merely during training. In experiments, we evaluate our framework on two
long-document retrieval benchmarks, which show state-of-the-art performance.
- Abstract(参考訳): ロングドキュメント検索は、知識蒸留が事実上のデファクトとなり、異質だが強力なクロスエンコーダを模倣して検索者を改善する大規模コレクションからクエリ関連文書を取得することを目的としている。
しかし、文章や文とは対照的に、長い文書の検索は、長い文書が複数の話題をカバーする可能性があるというスコープ仮説に苦しむ。
これは構造上の不均一性を最大化し、粒状ミスマッチ問題を引き起こし、低い蒸留効果をもたらす。
そこで本研究では, 長期文書検索者向けに, 微粒蒸留(fgd)という新しい学習フレームワークを提案する。
従来の密集検索パラダイムを保ちながら、まず異なる粒度を横断するグローバル一貫性の表現を生成し、訓練中にのみ多粒配列蒸留を適用する。
実験では,2つの長期文書検索ベンチマークのフレームワークの評価を行った。
関連論文リスト
- Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Enhanced Retrieval of Long Documents: Leveraging Fine-Grained Block Representations with Large Language Models [24.02950598944251]
文書の関連性評価の精度を高めることを目的とした,新しい,きめ細かいアプローチを提案する。
提案手法はまず,長い文書をブロックに分割し,それぞれを LLM を用いて埋め込む。
重み付け和法により,クエリブロック関連度スコアを集約し,ドキュメント全体のクエリに対する総合的なスコアを得る。
論文 参考訳(メタデータ) (2025-01-28T16:03:52Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。