論文の概要: QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications
- arxiv url: http://arxiv.org/abs/2010.14108v2
- Date: Wed, 28 Oct 2020 08:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:06:25.236300
- Title: QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications
- Title(参考訳): qbsum:実世界アプリケーションからの大規模クエリベース文書要約データセット
- Authors: Mingjun Zhao, Shengli Yan, Bang Liu, Xinwang Zhong, Qian Hao, Haolan
Chen, Di Niu, Bowei Long and Weidong Guo
- Abstract要約: 提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
- 参考スコア(独自算出の注目度): 20.507631900617817
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Query-based document summarization aims to extract or generate a summary of a
document which directly answers or is relevant to the search query. It is an
important technique that can be beneficial to a variety of applications such as
search engines, document-level machine reading comprehension, and chatbots.
Currently, datasets designed for query-based summarization are short in numbers
and existing datasets are also limited in both scale and quality. Moreover, to
the best of our knowledge, there is no publicly available dataset for Chinese
query-based document summarization. In this paper, we present QBSUM, a
high-quality large-scale dataset consisting of 49,000+ data samples for the
task of Chinese query-based document summarization. We also propose multiple
unsupervised and supervised solutions to the task and demonstrate their
high-speed inference and superior performance via both offline experiments and
online A/B tests. The QBSUM dataset is released in order to facilitate future
advancement of this research field.
- Abstract(参考訳): クエリベースの文書要約は、検索クエリに直接答える、または関連する文書の要約を抽出または生成することを目的としている。
これは、検索エンジン、文書レベルの機械読解、チャットボットなど、様々なアプリケーションにとって有益な重要な技術である。
現在、クエリベースの要約用に設計されたデータセットは数が少なく、既存のデータセットもスケールと品質の両方で制限されている。
さらに,我々の知る限り,中国語クエリベースの文書要約のためのデータセットは公開されていない。
本稿では,中国語クエリに基づく文書要約作業のための49,000以上のデータサンプルからなる高品質な大規模データセットQBSUMを提案する。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストによる高速推論と優れた性能を示す。
この研究分野の今後の進歩を促進するため、QBSUMデータセットがリリースされた。
関連論文リスト
- Non-Parametric Memory Guidance for Multi-Document Summarization [0.0]
本稿では,非パラメトリックメモリと組み合わせたレトリバー誘導モデルを提案する。
このモデルはデータベースから関連する候補を検索し、その候補をコピー機構とソースドキュメントで考慮して要約を生成する。
本手法は,学術論文を含むMultiXScienceデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-11-14T07:41:48Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。