論文の概要: Leveraging Large Text Corpora for End-to-End Speech Summarization
- arxiv url: http://arxiv.org/abs/2303.00978v1
- Date: Thu, 2 Mar 2023 05:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:50:09.140160
- Title: Leveraging Large Text Corpora for End-to-End Speech Summarization
- Title(参考訳): エンドツーエンド音声要約のための大規模テキストコーパスの活用
- Authors: Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka,
Atsunori Ogawa, Marc Delcroix, Ryo Masumura
- Abstract要約: エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 58.673480990374635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech summarization (E2E SSum) is a technique to directly
generate summary sentences from speech. Compared with the cascade approach,
which combines automatic speech recognition (ASR) and text summarization
models, the E2E approach is more promising because it mitigates ASR errors,
incorporates nonverbal information, and simplifies the overall system. However,
since collecting a large amount of paired data (i.e., speech and summary) is
difficult, the training data is usually insufficient to train a robust E2E SSum
system. In this paper, we present two novel methods that leverage a large
amount of external text summarization data for E2E SSum training. The first
technique is to utilize a text-to-speech (TTS) system to generate synthesized
speech, which is used for E2E SSum training with the text summary. The second
is a TTS-free method that directly inputs phoneme sequence instead of
synthesized speech to the E2E SSum model. Experiments show that our proposed
TTS- and phoneme-based methods improve several metrics on the How2 dataset. In
particular, our best system outperforms a previous state-of-the-art one by a
large margin (i.e., METEOR score improvements of more than 6 points). To the
best of our knowledge, this is the first work to use external language
resources for E2E SSum. Moreover, we report a detailed analysis of the How2
dataset to confirm the validity of our proposed E2E SSum system.
- Abstract(参考訳): エンドツーエンド音声要約(E2E SSum)は、音声から要約文を直接生成する技術である。
自動音声認識(ASR)とテキスト要約モデルを組み合わせたカスケードアプローチと比較して、E2Eアプローチは、ASRエラーを軽減し、非言語情報を取り込み、システム全体を単純化するため、より有望である。
しかし、大量のペアデータ(音声と要約)の収集が難しいため、トレーニングデータは通常、堅牢なE2E SSumシステムをトレーニングするには不十分である。
本稿では,E2E SSumトレーニングに大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
最初のテクニックは、テキスト要約によるE2E SSumトレーニングに使用される合成音声を生成するために、TTS(text-to-speech)システムを使用することである。
2つ目は、合成音声の代わりに直接音素シーケンスをE2E SSumモデルに入力するTSフリー方式である。
実験により,提案するttsおよびphonemeに基づく手法により,how2データセットのメトリクスが改善されることを示す。
特に、私たちの最良のシステムは、過去の最先端システムよりも大きなマージン(METEORが6ポイント以上改善した点)で優れています。
私たちの知る限りでは、E2E SSumのために外部言語リソースを使用する最初の作業です。
さらに,提案するE2E SSumシステムの有効性を確認するために,ハウ2データセットの詳細な解析を行った。
関連論文リスト
- Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation [44.332577357986324]
Sen-SSumは文単位で音声文書からテキスト要約を生成する。
We present two datasets for Sen-SSum: Mega-SSum and CSJ-SSum。
論文 参考訳(メタデータ) (2024-08-01T00:18:21Z) - Improving End-to-End Speech Processing by Efficient Text Data
Utilization with Latent Synthesis [17.604583337593677]
高性能エンドツーエンド音声(E2E)処理モデルの訓練には,大量のラベル付き音声データが必要となる。
E2E音声処理モデルのための効率的なテキストデータ利用フレームワークLaSynを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:10:49Z) - Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - Towards End-to-end Speech-to-text Summarization [0.0]
音声からテキストへの要約(S2T)は、オンラインで毎日アップロードされたニュースをフィルタリングし、追従するための時間節約手法である。
S2T抽象要約のエンドツーエンド(E2E)モデリングは、リッチな潜在表現を生成する可能性を提供する有望なアプローチである。
我々は、フランス語放送ニュースのコーパスに対して、カスケードとE2Eシステムの両方でS2T要約をモデル化する。
論文 参考訳(メタデータ) (2023-06-06T15:22:16Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Have best of both worlds: two-pass hybrid and E2E cascading framework
for speech recognition [71.30167252138048]
ハイブリッド・エンド・ツー・エンド(E2E)システムは音声認識結果に異なる誤りパターンを持つ。
本稿では,ハイブリッドモデルとE2Eモデルを組み合わせた2パスハイブリッドおよびE2Eカスケーディング(HEC)フレームワークを提案する。
提案システムでは,各システムに対して8~10%の単語誤り率削減を実現している。
論文 参考訳(メタデータ) (2021-10-10T20:11:38Z) - Exploring Transfer Learning For End-to-End Spoken Language Understanding [8.317084844841323]
スピーチから仮説に直接移動するエンドツーエンド(E2E)システムは、より魅力的なオプションです。
音声からテキストまでの複数のタスクを共同トレーニングするE2Eシステムを提案する。
個々のタスクで訓練されたE2Eモデルの性能を上回ります。
論文 参考訳(メタデータ) (2020-12-15T19:02:15Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。