Fugu-MT 論文翻訳(概要): Towards multi-document summarization in the open-domain

論文の概要: Towards multi-document summarization in the open-domain

arxiv url: http://arxiv.org/abs/2212.10526v2
Date: Wed, 24 May 2023 00:22:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 02:32:00.944485
Title: Towards multi-document summarization in the open-domain
Title（参考訳）: オープンドメインにおけるマルチドキュメント要約に向けて
Authors: John Giorgi, Luca Soldaini, Bo Wang, Gary Bader, Kyle Lo, Lucy Lu Wang, Arman Cohan
Abstract要約: MDS(Multi-document summarization)は、伝統的にトピック関連の文書のセットが提供されると仮定する。タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、より困難な"オープンドメイン"設定について研究する。
参考スコア（独自算出の注目度）: 29.70755868720542
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-document summarization (MDS) traditionally assumes a set of topic-related documents are provided. However, this document set is often an artifact of the dataset curation process; in practice, it is not necessarily available and would need to be retrieved given an information need, i.e. a question or topic statement. We study this more challenging "open-domain" setting by formalizing the task and bootstrapping it using existing datasets, retrievers and summarizers. Via extensive experimentation, we determine that: (1) state-of-the-art summarizers suffer large reductions in performance when applied to the open-domain, even when retrieval performance is high, (2) additional training in the open-domain setting can reduce this sensitivity to imperfect retrieval, and (3) summarizers are insensitive to the retrieval of duplicate documents and the order of retrieved documents, but highly sensitive to other errors, like the retrieval of irrelevant documents. Based on our results, we provide practical guidelines to enable future work on open-domain MDS, e.g. how to choose the number of retrieved documents to summarize. Our results suggest that new methods for retrieval and summarization, as well as annotated resources for training and evaluation, will be necessary for further progress in the open-domain.
Abstract（参考訳）: マルチドキュメント要約 (mds) は伝統的にトピック関連の文書のセットを提供する。しかし、この文書セットはデータセットのキュレーションプロセスの成果物であり、実際には必ずしも利用可能ではなく、質問やトピックステートメントといった情報を必要とするため、検索する必要がある。タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、より困難な"オープンドメイン"設定について研究する。広範にわたる実験により,(1) 最先端の要約者は,検索性能が高い場合でも,オープンドメインに適用した場合,大幅な性能低下を被る,(2) オープンドメイン設定における追加トレーニングは,この不完全な検索に対する感度を低下させる,(3) 重複文書の検索や検索された文書の順序には敏感であるが,無関係な文書の検索など他のエラーに非常に敏感である,という結論が得られた。この結果に基づき,検索した文書数を選択する方法など,オープンドメインmdsにおける今後の作業を可能にするための実践的ガイドラインを提供する。この結果から,新たな検索・要約手法,およびトレーニング・評価のための注釈付きリソースが,オープンドメインのさらなる進展に必要であることが示唆された。

関連論文リスト

DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文参考訳（メタデータ） (2025-07-08T09:24:07Z)
A Unified Retrieval Framework with Document Ranking and EDU Filtering for Multi-document Summarization [18.13855430873805]
現在の手法では、検索プロセスの後にトランケーションを適用してコンテキスト長に適合させる。本稿では,クエリ選択と文書ランキングを統合した検索に基づく新しいフレームワークを提案する。我々は、複数のMDSデータセット上でのフレームワークを評価し、ROUGEメトリクスの一貫した改善を実証した。
論文参考訳（メタデータ） (2025-04-23T13:41:10Z)
BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations [2.9798896492745537]
文書質問回答(QA)のための統合データセットを提案する。情報抽出(IE)などの既存の文書AIタスクを質問応答タスクに再構成する。一方、全文書のOCRを公開し、文書画像中の回答の正確な位置をバウンディングボックスとして含む。
論文参考訳（メタデータ） (2025-01-06T21:46:22Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
ODSum: New Benchmarks for Open Domain Multi-Document Summarization [30.875191848268347]
Open- Domain Multi-Document Summarization (ODMDS) は、大量のドキュメントを一貫性のある簡潔な要約に集約するための重要なツールである。我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。
論文参考訳（メタデータ） (2023-09-16T11:27:34Z)
Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文参考訳（メタデータ） (2022-06-21T18:16:31Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)
GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。 FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文参考訳（メタデータ） (2022-04-12T03:49:35Z)
Augmenting Document Representations for Dense Retrieval with Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。 2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-03-15T09:07:38Z)
WSL-DS: Weakly Supervised Learning with Distant Supervision for Query Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文参考訳（メタデータ） (2020-11-03T02:02:55Z)
AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。 5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文参考訳（メタデータ） (2020-10-23T22:38:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。