論文の概要: Exploring the Challenges of Open Domain Multi-Document Summarization
- arxiv url: http://arxiv.org/abs/2212.10526v1
- Date: Tue, 20 Dec 2022 18:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:02:11.547824
- Title: Exploring the Challenges of Open Domain Multi-Document Summarization
- Title(参考訳): オープンドメイン多文書要約の課題を探る
- Authors: John Giorgi, Luca Soldaini, Bo Wang, Gary Bader, Kyle Lo, Lucy Lu
Wang, Arman Cohan
- Abstract要約: 多文書要約(MDS)は伝統的に,一組の基幹的話題関連入力文書が提供されると仮定して研究されてきた。
実際には、入力されたドキュメントセットが事前利用できそうになく、情報要求に基づいて検索する必要がある。
オープンドメイン設定に拡張されたいくつかの人気のあるMDSデータセット上で、最先端の検索と要約モデルの実験を行った。
- 参考スコア(独自算出の注目度): 29.70755868720542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-document summarization (MDS) has traditionally been studied assuming a
set of ground-truth topic-related input documents is provided. In practice, the
input document set is unlikely to be available a priori and would need to be
retrieved based on an information need, a setting we call open-domain MDS. We
experiment with current state-of-the-art retrieval and summarization models on
several popular MDS datasets extended to the open-domain setting. We find that
existing summarizers suffer large reductions in performance when applied as-is
to this more realistic task, though training summarizers with retrieved inputs
can reduce their sensitivity retrieval errors. To further probe these findings,
we conduct perturbation experiments on summarizer inputs to study the impact of
different types of document retrieval errors. Based on our results, we provide
practical guidelines to help facilitate a shift to open-domain MDS. We release
our code and experimental results alongside all data or model artifacts created
during our investigation.
- Abstract(参考訳): 多文書要約(MDS)は伝統的に,一組の基幹話題関連入力文書が提供されると仮定して研究されてきた。
実際には、入力ドキュメントセットは優先順位として利用できないため、情報ニーズ、つまりオープンドメインmdsと呼ばれる設定に基づいて取得する必要があります。
オープンドメイン設定に拡張されたいくつかのmdsデータセット上で,現在の最先端の検索と要約モデルを実験する。
既存の要約器は、このより現実的なタスクに適用すると、大幅な性能低下を被るが、抽出した入力によるトレーニング要約器は、感度検索誤差を低減できる。
さらにこれらの知見を探索するため,文書検索の異なる種類の誤りの影響を調べるために,要約入力に対する摂動実験を行った。
本結果に基づき,オープンドメインMDSへの移行を促進するための実践的ガイドラインを提供する。
調査中に作成したすべてのデータやモデルアーティファクトとともに、コードと実験結果をリリースします。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - ODSum: New Benchmarks for Open Domain Multi-Document Summarization [30.875191848268347]
Open- Domain Multi-Document Summarization (ODMDS) は、大量のドキュメントを一貫性のある簡潔な要約に集約するための重要なツールである。
我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T11:27:34Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。