論文の概要: ESSumm: Extractive Speech Summarization from Untranscribed Meeting
- arxiv url: http://arxiv.org/abs/2209.06913v1
- Date: Wed, 14 Sep 2022 20:13:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:22:22.110719
- Title: ESSumm: Extractive Speech Summarization from Untranscribed Meeting
- Title(参考訳): ESSumm:無転写会議からの抽出音声要約
- Authors: Jun Wang
- Abstract要約: 本稿では,音声から音声への直接要約のための新しいアーキテクチャであるESSummを提案する。
市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。
提案手法は,目的の要約長でキー情報をキャプチャする音声セグメントの最適シーケンスを自動的に予測する。
- 参考スコア(独自算出の注目度): 7.309214379395552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel architecture for direct extractive
speech-to-speech summarization, ESSumm, which is an unsupervised model without
dependence on intermediate transcribed text. Different from previous methods
with text presentation, we are aimed at generating a summary directly from
speech without transcription. First, a set of smaller speech segments are
extracted based on speech signal's acoustic features. For each candidate speech
segment, a distance-based summarization confidence score is designed for latent
speech representation measure. Specifically, we leverage the off-the-shelf
self-supervised convolutional neural network to extract the deep speech
features from raw audio. Our approach automatically predicts the optimal
sequence of speech segments that capture the key information with a target
summary length. Extensive results on two well-known meeting datasets (AMI and
ICSI corpora) show the effectiveness of our direct speech-based method to
improve the summarization quality with untranscribed data. We also observe that
our unsupervised speech-based method even performs on par with recent
transcript-based summarization approaches, where extra speech recognition is
required.
- Abstract(参考訳): 本稿では,中間転写テキストに依存しない教師なしモデルであるessummを,直接抽出型音声合成システムとして提案する。
従来のテキスト提示方法とは違って,音声から直接要約を生成することを目的としている。
まず、音声信号の音響特徴に基づいて、より小さな音声セグメントのセットを抽出する。
各候補音声セグメントについて、潜在音声表現尺度のための距離ベース要約信頼度スコアを設計する。
具体的には、市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。
提案手法は,目標要約長でキー情報をキャプチャする音声セグメントの最適なシーケンスを自動的に予測する。
2つのよく知られた会議データセット(AMI と ICSI コーパス)の広範囲な結果から,非転写データによる要約品質向上のための直接発話法の有効性が示された。
また, 教師なし音声ベース手法は, 追加音声認識が必要な最近の書き起こしに基づく要約手法と同等の性能を発揮することも確認した。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Direct simultaneous speech to speech translation [29.958601064888132]
本稿では,最初の音声音声合成モデル(Simul-S2ST)を提案する。
モデルは、全音源の音声コンテンツを消費する前に、ターゲット音声の翻訳を生成することができる。
論文 参考訳(メタデータ) (2021-10-15T17:59:15Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。