論文の概要: Open Domain Multi-document Summarization: A Comprehensive Study of Model
Brittleness under Retrieval
- arxiv url: http://arxiv.org/abs/2212.10526v3
- Date: Wed, 25 Oct 2023 13:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 05:52:20.623873
- Title: Open Domain Multi-document Summarization: A Comprehensive Study of Model
Brittleness under Retrieval
- Title(参考訳): Open Domain Multi-document Summarization:Retrieval下でのモデル脆度に関する総合的研究
- Authors: John Giorgi, Luca Soldaini, Bo Wang, Gary Bader, Kyle Lo, Lucy Lu
Wang, Arman Cohan
- Abstract要約: マルチドキュメント要約(MDS)は、一連のトピック関連の文書が入力として提供されると仮定する。
タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、より困難な設定について研究する。
- 参考スコア(独自算出の注目度): 42.73076855699184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-document summarization (MDS) assumes a set of topic-related documents
are provided as input. In practice, this document set is not always available;
it would need to be retrieved given an information need, i.e. a question or
topic statement, a setting we dub "open-domain" MDS. We study this more
challenging setting by formalizing the task and bootstrapping it using existing
datasets, retrievers and summarizers. Via extensive automatic and human
evaluation, we determine: (1) state-of-the-art summarizers suffer large
reductions in performance when applied to open-domain MDS, (2) additional
training in the open-domain setting can reduce this sensitivity to imperfect
retrieval, and (3) summarizers are insensitive to the retrieval of duplicate
documents and the order of retrieved documents, but highly sensitive to other
errors, like the retrieval of irrelevant documents. Based on our results, we
provide practical guidelines to enable future work on open-domain MDS, e.g. how
to choose the number of retrieved documents to summarize. Our results suggest
that new retrieval and summarization methods and annotated resources for
training and evaluation are necessary for further progress in the open-domain
setting.
- Abstract(参考訳): マルチドキュメント要約(MDS)は、一連のトピック関連の文書が入力として提供されると仮定する。
実際には、このドキュメントセットは必ずしも利用可能ではない。情報ニーズ、すなわち質問またはトピックステートメント、つまり私たちが"open-domain" mdsをダビングする設定から取得する必要がある。
私たちは、タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、このより困難な設定を研究します。
その結果,(1)オープンドメインmdsに適用された場合の性能が大幅に低下し,(2)オープンドメイン設定における追加のトレーニングにより,不完全検索に対する感度が低下し,(3)重複文書の検索や検索文書の順序に影響を受けないが,無関係文書の検索など他の誤りに非常に敏感であることがわかった。
この結果に基づき,検索した文書数を選択する方法など,オープンドメインmdsにおける今後の作業を可能にするための実践的ガイドラインを提供する。
オープンドメイン設定のさらなる進展には,新たな検索・要約手法とトレーニング・評価のための注釈付きリソースが必要であることが示唆された。
関連論文リスト
- Non-Parametric Memory Guidance for Multi-Document Summarization [0.0]
本稿では,非パラメトリックメモリと組み合わせたレトリバー誘導モデルを提案する。
このモデルはデータベースから関連する候補を検索し、その候補をコピー機構とソースドキュメントで考慮して要約を生成する。
本手法は,学術論文を含むMultiXScienceデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-11-14T07:41:48Z) - ODSum: New Benchmarks for Open Domain Multi-Document Summarization [30.875191848268347]
Open- Domain Multi-Document Summarization (ODMDS) は、大量のドキュメントを一貫性のある簡潔な要約に集約するための重要なツールである。
我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T11:27:34Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。