論文の概要: MUG: A General Meeting Understanding and Generation Benchmark
- arxiv url: http://arxiv.org/abs/2303.13939v2
- Date: Mon, 27 Mar 2023 03:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 11:36:47.485323
- Title: MUG: A General Meeting Understanding and Generation Benchmark
- Title(参考訳): MUG: 理解と生成のベンチマーク
- Authors: Qinglin Zhang, Chong Deng, Jiaqing Liu, Hai Yu, Qian Chen, Wen Wang,
Zhijie Yan, Jinglin Liu, Yi Ren, Zhou Zhao
- Abstract要約: 我々はAliMeeting4MUG Corpusを構築した。
本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
- 参考スコア(独自算出の注目度): 60.09540662936726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Listening to long video/audio recordings from video conferencing and online
courses for acquiring information is extremely inefficient. Even after ASR
systems transcribe recordings into long-form spoken language documents, reading
ASR transcripts only partly speeds up seeking information. It has been observed
that a range of NLP applications, such as keyphrase extraction, topic
segmentation, and summarization, significantly improve users' efficiency in
grasping important information. The meeting scenario is among the most valuable
scenarios for deploying these spoken language processing (SLP) capabilities.
However, the lack of large-scale public meeting datasets annotated for these
SLP tasks severely hinders their advancement. To prompt SLP advancement, we
establish a large-scale general Meeting Understanding and Generation Benchmark
(MUG) to benchmark the performance of a wide range of SLP tasks, including
topic segmentation, topic-level and session-level extractive summarization and
topic title generation, keyphrase extraction, and action item detection. To
facilitate the MUG benchmark, we construct and release a large-scale meeting
dataset for comprehensive long-form SLP development, the AliMeeting4MUG Corpus,
which consists of 654 recorded Mandarin meeting sessions with diverse topic
coverage, with manual annotations for SLP tasks on manual transcripts of
meeting recordings. To the best of our knowledge, the AliMeeting4MUG Corpus is
so far the largest meeting corpus in scale and facilitates most SLP tasks. In
this paper, we provide a detailed introduction of this corpus, SLP tasks and
evaluation methods, baseline systems and their performance.
- Abstract(参考訳): ビデオ会議やオンラインコースから長いビデオ/オーディオ録音を聴くことは極めて非効率である。
ASRシステムは、記録を長文の音声文書に書き起こした後でも、ASRの書き起こしを読むことは、情報の検索を高速化するだけである。
キーフレーズ抽出やトピックセグメンテーション,要約など,さまざまなNLPアプリケーションが重要情報の収集において,ユーザの効率を著しく向上させることがわかった。
ミーティングシナリオは,これらの言語処理(SLP)機能をデプロイする上で,最も価値のあるシナリオのひとつだ。
しかし、これらのSLPタスクに注釈を付けた大規模な公開ミーティングデータセットの欠如は、彼らの進歩を著しく妨げている。
slpの進歩を促進するために,トピックセグメンテーション,トピックレベルおよびセッションレベルの抽出要約,トピックタイトル生成,キーフレーズ抽出,アクションアイテム検出など,幅広いslpタスクのパフォーマンスをベンチマークするために,mug(general meeting understanding and generation benchmark)を確立した。
mugベンチマークを容易にするために,大規模会議データセットであるalimeeting4mugコーパスを構築して公開する。このコーパスは654回録音されたマンダリン会議セッションで,トピックカバレッジが多様であり,会議記録のマニュアル書き起こしにslpタスクのマニュアルアノテーションが組み込まれている。
私たちの知る限りでは、AliMeeting4MUG Corpusは規模で最大のミーティングコーパスであり、ほとんどのSLPタスクを促進する。
本稿では,本コーパスの詳細な紹介,slpタスクと評価方法,ベースラインシステムとその性能について述べる。
関連論文リスト
- An End-to-End Speech Summarization Using Large Language Model [7.562198375754054]
音声要約(SSum)は、音声コンテンツから人間に似たテキスト要約を生成することを目的としている。
大規模言語モデル(LLM)とマルチモーダル情報融合の研究は、新たな洞察をもたらした。
本稿では、Q-Formerを音声テキストモダリティのコネクタとして利用するエンドツーエンドのSSumモデルを提案する。
論文 参考訳(メタデータ) (2024-07-02T07:22:57Z) - TreeSeg: Hierarchical Topic Segmentation of Large Transcripts [0.0]
本稿では,市販の埋め込みモデルと分割クラスタリングを組み合わせるアプローチであるTreeSegを紹介し,バイナリツリーの形で,階層的で構造化された転写文のセグメンテーションを生成する。
ICSIとAMIコーパスでTreeSegを評価し,すべてのベースラインを上回る性能を示した。
最後に,自己記録ビデオセッションから得られた手書き手書き文字の小さなコーパスであるTinyRecを紹介する。
論文 参考訳(メタデータ) (2024-06-28T23:49:26Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Investigating Consistency in Query-Based Meeting Summarization: A
Comparative Study of Different Embedding Methods [0.0]
テキスト要約は自然言語処理(NLP)分野における有名な応用の1つである。
与えられたコンテキストに基づいて重要な情報による要約を自動的に生成することを目的としている。
本稿では,Microsoft が提案した "QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization" に着想を得た。
また,提案するLocaterモデルを用いて,与えられたテキストとクエリに基づいて関連するスパンを抽出し,それをSummarizerモデルで要約する。
論文 参考訳(メタデータ) (2024-02-10T08:25:30Z) - Overview of the ICASSP 2023 General Meeting Understanding and Generation
Challenge (MUG) [60.09540662936726]
MUGには、トピックセグメンテーション、トピックレベルおよびセッションレベルの抽出要約、トピックタイトル生成、キーフレーズ抽出、アクションアイテム検出の5つのトラックが含まれている。
MUGを容易にするために,大規模なミーティングデータセットであるAliMeeting4MUG Corpusを構築し,リリースする。
論文 参考訳(メタデータ) (2023-03-24T11:42:19Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - A Sliding-Window Approach to Automatic Creation of Meeting Minutes [66.39584679676817]
会議の議事録には、議論された問題、決定、会議での行動が記録されている。
会議時間の自動生成のためのスライディングウインドウ手法を提案する。
長い写本や文書構造の欠如など、発話テキストの性質に関連する問題に取り組むことを目指しています。
論文 参考訳(メタデータ) (2021-04-26T02:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。