論文の概要: Topic Classification on Spoken Documents Using Deep Acoustic and
Linguistic Features
- arxiv url: http://arxiv.org/abs/2106.08637v1
- Date: Wed, 16 Jun 2021 08:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:27:20.268844
- Title: Topic Classification on Spoken Documents Using Deep Acoustic and
Linguistic Features
- Title(参考訳): 深層音響・言語的特徴を用いた音声文書の話題分類
- Authors: Tan Liu, Wu Guo, Bin Gu
- Abstract要約: ASRの転写文字の代わりに、音声文書のトピック分類において、深い音響的特徴と言語的特徴の融合が用いられる。
Switchboard corpus から選択したサブセットを用いて行った実験により,提案手法が従来の ASR+TTC システムより優れていることが示された。
- 参考スコア(独自算出の注目度): 48.62994213661103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic classification systems on spoken documents usually consist of two
modules: an automatic speech recognition (ASR) module to convert speech into
text and a text topic classification (TTC) module to predict the topic class
from the decoded text. In this paper, instead of using the ASR transcripts, the
fusion of deep acoustic and linguistic features is used for topic
classification on spoken documents. More specifically, a conventional CTC-based
acoustic model (AM) using phonemes as output units is first trained, and the
outputs of the layer before the linear phoneme classifier in the trained AM are
used as the deep acoustic features of spoken documents. Furthermore, these deep
acoustic features are fed to a phoneme-to-word (P2W) module to obtain deep
linguistic features. Finally, a local multi-head attention module is proposed
to fuse these two types of deep features for topic classification. Experiments
conducted on a subset selected from Switchboard corpus show that our proposed
framework outperforms the conventional ASR+TTC systems and achieves a 3.13%
improvement in ACC.
- Abstract(参考訳): 音声文書のトピック分類システムは通常、音声をテキストに変換する自動音声認識(ASR)モジュールと、デコードされたテキストからトピッククラスを予測するテキストトピック分類(TTC)モジュールの2つのモジュールで構成される。
本稿では,asrの書き起こしを用いる代わりに,音声文書の話題分類において,音響的特徴と言語的特徴の融合が用いられる。
より具体的には、音素を出力単位とする従来のctcベースの音響モデル(am)をまず訓練し、訓練されたamにおける線形音素分類器以前の層の出力を音声文書の深い音響的特徴として用いる。
さらに、これらの深い音響特徴を音素対単語(P2W)モジュールに供給し、深い言語的特徴を得る。
最後に、トピック分類のための2種類の深い特徴を融合するために、局所的なマルチヘッドアテンションモジュールを提案する。
スイッチボードコーパスから選択したサブセットを用いた実験では,提案フレームワークが従来のasr+ttcシステムよりも優れ,accが3.13%向上した。
関連論文リスト
- The evaluation of a code-switched Sepedi-English automatic speech
recognition system [0.0]
本稿では,セペディ・イングリッシュ方式の自動音声認識システムの評価について述べる。
このエンドツーエンドシステムは、Sepedi Prompted Code Switching corpus と CTC アプローチを用いて開発された。
しかし、このモデルは41.9%という最低のWERを生み出したが、セペディ文字のみを認識するという課題に直面した。
論文 参考訳(メタデータ) (2024-03-11T15:11:28Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。
自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文 参考訳(メタデータ) (2022-11-16T11:47:20Z) - Acoustic Data-Driven Subword Modeling for End-to-End Speech Recognition [46.675712485821805]
単語単位は通常、エンドツーエンドの自動音声認識(ASR)に使用される。
本稿では,複数のテキストベースおよび音響ベースサブワード手法の利点を1つのパイプラインに適応させる音響データ駆動サブワードモデリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-19T07:54:15Z) - Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-02-12T12:02:03Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。