論文の概要: VCSUM: A Versatile Chinese Meeting Summarization Dataset
- arxiv url: http://arxiv.org/abs/2305.05280v1
- Date: Tue, 9 May 2023 09:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:17:14.236425
- Title: VCSUM: A Versatile Chinese Meeting Summarization Dataset
- Title(参考訳): VCSUM:中国の多国間会議要約データセット
- Authors: Han Wu, Mingjie Zhan, Haochen Tan, Zhaohui Hou, Ding Liang, and Linqi
Song
- Abstract要約: 我々は,239のリアルタイムミーティングからなる,VCSumと呼ばれる汎用的な中国の会議要約データセットを紹介する。
トピックセグメンテーション、見出し、セグメンテーションサマリー、全体会議サマリー、および各ミーティングスクリプティングに対する敬意的な文のアノテーションを提供する。
分析の結果,VCSumの有効性とロバスト性が確認された。
- 参考スコア(独自算出の注目度): 25.695308276427166
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Compared to news and chat summarization, the development of meeting
summarization is hugely decelerated by the limited data. To this end, we
introduce a versatile Chinese meeting summarization dataset, dubbed VCSum,
consisting of 239 real-life meetings, with a total duration of over 230 hours.
We claim our dataset is versatile because we provide the annotations of topic
segmentation, headlines, segmentation summaries, overall meeting summaries, and
salient sentences for each meeting transcript. As such, the dataset can adapt
to various summarization tasks or methods, including segmentation-based
summarization, multi-granularity summarization and retrieval-then-generate
summarization. Our analysis confirms the effectiveness and robustness of VCSum.
We also provide a set of benchmark models regarding different downstream
summarization tasks on VCSum to facilitate further research. The dataset and
code will be released at \url{https://github.com/hahahawu/VCSum}.
- Abstract(参考訳): ニュースやチャットの要約と比較して,会議要約の発達は限られたデータによって著しく減速する。
そこで本研究では,239回の実生活会議からなり,合計230時間以上を要した,多彩な中国の会議要約データセットvcsumを紹介する。
我々のデータセットは、トピックセグメンテーション、見出し、セグメンテーションサマリー、全体会議サマリー、および各ミーティングスクリプティングに対する敬意的な文のアノテーションを提供するので、汎用的だと主張する。
このように、データセットは、セグメンテーションベースの要約、多粒度要約、検索-then-generate summarizationなど、様々な要約タスクやメソッドに適応することができる。
分析の結果,VCSumの有効性とロバスト性が確認された。
また、VCSumの下流の様々な要約タスクに関するベンチマークモデルも提供し、さらなる研究を促進する。
データセットとコードは \url{https://github.com/hahahawu/VCSum} でリリースされる。
関連論文リスト
- Investigating Consistency in Query-Based Meeting Summarization: A
Comparative Study of Different Embedding Methods [0.0]
テキスト要約は自然言語処理(NLP)分野における有名な応用の1つである。
与えられたコンテキストに基づいて重要な情報による要約を自動的に生成することを目的としている。
本稿では,Microsoft が提案した "QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization" に着想を得た。
また,提案するLocaterモデルを用いて,与えられたテキストとクエリに基づいて関連するスパンを抽出し,それをSummarizerモデルで要約する。
論文 参考訳(メタデータ) (2024-02-10T08:25:30Z) - Aspect-based Meeting Transcript Summarization: A Two-Stage Approach with
Weak Supervision on Sentence Classification [91.13086984529706]
Aspect-based meeting transcript summarization は複数の要約を生成することを目的としている。
従来の要約手法は、全ての側面の情報を1つの要約で混合する。
アスペクトベースの会議書き起こし要約のための2段階の手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T19:06:31Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - AgreeSum: Agreement-Oriented Multi-Document Summarization [3.4743618614284113]
記事の集合が与えられた場合、ゴールはすべての入力記事に共通かつ忠実な情報を表す抽象的な要約を提供することである。
我々は、AgreeSumのデータセットを作成し、データセット内のクラスタのサブセットについて、記事の要約関係に関するアノテーションを提供します。
論文 参考訳(メタデータ) (2021-06-04T06:17:49Z) - CNTLS: A Benchmark Dataset for Abstractive or Extractive Chinese
Timeline Summarization [22.813746290856916]
中国における時系列要約のための汎用リソースであるCNTLSデータセットについて紹介する。
CNTLSは77のリアルタイムトピックを含み、それぞれ2524のドキュメントを持ち、60%近くの圧縮を要約している。
CNTLSコーパスを用いた各種抽出・生成要約システムの性能評価を行った。
論文 参考訳(メタデータ) (2021-05-29T03:47:10Z) - QMSum: A New Benchmark for Query-based Multi-domain Meeting
Summarization [45.83402681068943]
QMSumは、複数のドメインで232のミーティングで1,808のクエリサマリーペアで構成されている。
find-then-summarizeメソッドを調査し、タスクに関する強力な要約ベースラインのセットを評価します。
論文 参考訳(メタデータ) (2021-04-13T05:00:35Z) - A Hierarchical Network for Abstractive Meeting Summarization with
Cross-Domain Pretraining [52.11221075687124]
本稿では,会議シナリオに適応する抽象的要約ネットワークを提案する。
提案手法は,長時間の会議記録に対応する階層構造と,話者間の差異を表現する役割ベクトルを設計する。
我々のモデルは、自動測定と人的評価の両方において、過去のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-04-04T21:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。