論文の概要: LMGQS: A Large-scale Dataset for Query-focused Summarization
- arxiv url: http://arxiv.org/abs/2305.13086v1
- Date: Mon, 22 May 2023 14:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:16:17.928819
- Title: LMGQS: A Large-scale Dataset for Query-focused Summarization
- Title(参考訳): LMGQS:クエリ中心の要約のための大規模データセット
- Authors: Ruochen Xu, Song Wang, Yang Liu, Shuohang Wang, Yichong Xu, Dan Iter,
Chenguang Zhu, Michael Zeng
- Abstract要約: 我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 77.6179359525065
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Query-focused summarization (QFS) aims to extract or generate a summary of an
input document that directly answers or is relevant to a given query. The lack
of large-scale datasets in the form of documents, queries, and summaries has
hindered model development in this area. In contrast, multiple large-scale
high-quality datasets for generic summarization exist. We hypothesize that
there is a hidden query for each summary sentence in a generic summarization
annotation, and we utilize a large-scale pretrained language model to recover
it. In this way, we convert four generic summarization benchmarks into a new
QFS benchmark dataset, LMGQS, which consists of over 1 million
document-query-summary samples. We thoroughly investigate the properties of our
proposed dataset and establish baselines with state-of-the-art summarization
models. By fine-tuning a language model on LMGQS, we achieve state-of-the-art
zero-shot and supervised performance on multiple existing QFS benchmarks,
demonstrating the high quality and diversity of LMGQS.
- Abstract(参考訳): query-focus summarization(qfs)は、入力ドキュメントのサマリを抽出または生成することを目的としている。
ドキュメント、クエリ、要約という形式での大規模データセットの欠如は、この分野のモデル開発を妨げている。
対照的に、汎用的な要約のための複数の大規模高品質データセットが存在する。
総括要約アノテーションでは,各要約文に隠れたクエリが存在することを仮定し,それを復元するために大規模事前学習言語モデルを用いる。
このようにして、4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
提案するデータセットの特性を徹底的に調査し,最先端の要約モデルを用いてベースラインを確立する。
LMGQSで言語モデルを微調整することにより、既存の複数のQFSベンチマークで最先端のゼロショットと教師付きパフォーマンスを実現し、LMGQSの品質と多様性を実証する。
関連論文リスト
- IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization [59.06663981902496]
クエリ中心の要約(QFS)は、特定の関心事に答え、より優れたユーザ制御とパーソナライゼーションを可能にする要約を作成することを目的としている。
本稿では,LLMを用いたQFSモデル,Longthy Document Summarization,およびクエリ-LLMアライメントの2つの重要な特徴について検討する。
これらのイノベーションは、QFS技術分野における幅広い応用とアクセシビリティの道を開いた。
論文 参考訳(メタデータ) (2024-07-15T07:14:56Z) - A Lightweight Constrained Generation Alternative for Query-focused
Summarization [8.264410236351111]
クエリ中心の要約(QFS)は、あるクエリの必要な情報を満たすドキュメントの要約を提供することを目的としている。
我々は,最近開発された制約付き世代モデルニューロロジカルデコーディング(NLD)を,現在のQFS方式の代替として活用することを提案する。
本稿では,2つの公開QFSコレクションに対するこのアプローチの有効性を,複雑性を著しく低減した最先端モデルとほぼ同等に示す。
論文 参考訳(メタデータ) (2023-04-23T18:43:48Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications [20.507631900617817]
提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-27T07:30:04Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。