Fugu-MT 論文翻訳(概要): Fine-Grained Distillation for Long Document Retrieval

論文の概要: Fine-Grained Distillation for Long Document Retrieval

arxiv url: http://arxiv.org/abs/2212.10423v1
Date: Tue, 20 Dec 2022 17:00:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 16:40:41.993385
Title: Fine-Grained Distillation for Long Document Retrieval
Title（参考訳）: 長期文書検索のための細粒度蒸留
Authors: Yucheng Zhou, Tao Shen, Xiubo Geng, Chongyang Tao, Guodong Long, Can Xu, Daxin Jiang
Abstract要約: ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
参考スコア（独自算出の注目度）: 86.39802110609062
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long document retrieval aims to fetch query-relevant documents from a large-scale collection, where knowledge distillation has become de facto to improve a retriever by mimicking a heterogeneous yet powerful cross-encoder. However, in contrast to passages or sentences, retrieval on long documents suffers from the scope hypothesis that a long document may cover multiple topics. This maximizes their structure heterogeneity and poses a granular-mismatch issue, leading to an inferior distillation efficacy. In this work, we propose a new learning framework, fine-grained distillation (FGD), for long-document retrievers. While preserving the conventional dense retrieval paradigm, it first produces global-consistent representations crossing different fine granularity and then applies multi-granular aligned distillation merely during training. In experiments, we evaluate our framework on two long-document retrieval benchmarks, which show state-of-the-art performance.
Abstract（参考訳）: ロングドキュメント検索は、知識蒸留が事実上のデファクトとなり、異質だが強力なクロスエンコーダを模倣して検索者を改善する大規模コレクションからクエリ関連文書を取得することを目的としている。しかし、文章や文とは対照的に、長い文書の検索は、長い文書が複数の話題をカバーする可能性があるというスコープ仮説に苦しむ。これは構造上の不均一性を最大化し、粒状ミスマッチ問題を引き起こし、低い蒸留効果をもたらす。そこで本研究では, 長期文書検索者向けに, 微粒蒸留(fgd)という新しい学習フレームワークを提案する。従来の密集検索パラダイムを保ちながら、まず異なる粒度を横断するグローバル一貫性の表現を生成し、訓練中にのみ多粒配列蒸留を適用する。実験では,2つの長期文書検索ベンチマークのフレームワークの評価を行った。

関連論文リスト

Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。検索者は文書の優先順位の過度な開始、短い文書、繰り返しのエンティティ、リテラルマッチングといった表面的なパターンにしばしば依存していることを示す。これらのバイアスは、検索優先の文書がLLMを誤解させるおそれのあるRAGのような下流アプリケーションに直接的な結果をもたらすことを示す。
論文参考訳（メタデータ） (2025-03-06T23:23:13Z)
Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER) DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
Enhanced Retrieval of Long Documents: Leveraging Fine-Grained Block Representations with Large Language Models [24.02950598944251]
文書の関連性評価の精度を高めることを目的とした,新しい,きめ細かいアプローチを提案する。提案手法はまず,長い文書をブロックに分割し,それぞれを LLM を用いて埋め込む。重み付け和法により,クエリブロック関連度スコアを集約し,ドキュメント全体のクエリに対する総合的なスコアを得る。
論文参考訳（メタデータ） (2025-01-28T16:03:52Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)
Natural Logic-guided Autoregressive Multi-hop Document Retrieval for Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文参考訳（メタデータ） (2022-12-10T11:32:38Z)
SeDR: Segment Representation Learning for Long Documents Dense Retrieval [17.864362372788374]
長文Dense Retrieval(SeDR)のためのセグメンテーション表現学習を提案する。 SeDRは長いドキュメントを文書認識とセグメント認識の表現にエンコードするが、分割とプーリングの複雑さを保っている。 MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2022-11-20T01:28:44Z)
Learning Diverse Document Representations with Deep Query Interactions for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文参考訳（メタデータ） (2022-08-08T16:00:55Z)
GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。 FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文参考訳（メタデータ） (2022-04-12T03:49:35Z)
Augmenting Document Representations for Dense Retrieval with Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。 2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-03-15T09:07:38Z)
Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文参考訳（メタデータ） (2022-03-15T01:24:51Z)
On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文参考訳（メタデータ） (2020-12-28T08:10:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。