論文の概要: Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2408.00205v1
- Date: Thu, 1 Aug 2024 00:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 22:04:56.514930
- Title: Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation
- Title(参考訳): 文単位の音声要約: LM知識蒸留を用いたタスク,データセット,エンドツーエンドモデリング
- Authors: Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix,
- Abstract要約: Sen-SSumは文単位で音声文書からテキスト要約を生成する。
We present two datasets for Sen-SSum: Mega-SSum and CSJ-SSum。
- 参考スコア(独自算出の注目度): 44.332577357986324
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces a novel approach called sentence-wise speech summarization (Sen-SSum), which generates text summaries from a spoken document in a sentence-by-sentence manner. Sen-SSum combines the real-time processing of automatic speech recognition (ASR) with the conciseness of speech summarization. To explore this approach, we present two datasets for Sen-SSum: Mega-SSum and CSJ-SSum. Using these datasets, our study evaluates two types of Transformer-based models: 1) cascade models that combine ASR and strong text summarization models, and 2) end-to-end (E2E) models that directly convert speech into a text summary. While E2E models are appealing to develop compute-efficient models, they perform worse than cascade models. Therefore, we propose knowledge distillation for E2E models using pseudo-summaries generated by the cascade models. Our experiments show that this proposed knowledge distillation effectively improves the performance of the E2E model on both datasets.
- Abstract(参考訳): 本稿では,音声文書からテキスト要約を文単位に生成する,文単位の音声要約(Sen-SSum)という新しい手法を提案する。
Sen-SSumは、自動音声認識(ASR)のリアルタイム処理と、音声要約の簡潔さを組み合わせる。
このアプローチを探索するため,Sen-SSumにはMega-SSumとCSJ-SSumの2つのデータセットを提示する。
これらのデータセットを用いて、2種類のトランスフォーマーモデルを評価する。
1)ASRと強力なテキスト要約モデルを組み合わせたカスケードモデル、及び
2) 音声を直接テキスト要約に変換するエンド・ツー・エンド(E2E)モデル。
E2Eモデルは計算効率の良いモデルを開発するのに魅力があるが、カスケードモデルよりもパフォーマンスが悪くなっている。
そこで我々は,カスケードモデルにより生成された擬似サマリーを用いたE2Eモデルの知識蒸留を提案する。
本実験により, この知識蒸留は両データセットのE2Eモデルの性能を効果的に向上することが示された。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - Towards End-to-end Speech-to-text Summarization [0.0]
音声からテキストへの要約(S2T)は、オンラインで毎日アップロードされたニュースをフィルタリングし、追従するための時間節約手法である。
S2T抽象要約のエンドツーエンド(E2E)モデリングは、リッチな潜在表現を生成する可能性を提供する有望なアプローチである。
我々は、フランス語放送ニュースのコーパスに対して、カスケードとE2Eシステムの両方でS2T要約をモデル化する。
論文 参考訳(メタデータ) (2023-06-06T15:22:16Z) - Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - MeetSum: Transforming Meeting Transcript Summarization using
Transformers! [2.1915057426589746]
本稿では,Transformer ベースの Pointer Generator Network を用いて要約文を生成する。
このモデルは、エンコーダとデコーダとして2つのLSTMを使用し、入力されたテキストから単語をコピーするポインタネットワークと、語彙外単語を生成するジェネレータネットワークを使用する。
本稿では,ニュース要約データセット上でモデルをトレーニングし,ゼロショット学習を用いてミーティングデータセット上でテストすることで,AMIミーティングデータセット上でのトレーニングよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-08-13T16:34:09Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。