論文の概要: Transcription free filler word detection with Neural semi-CRFs
- arxiv url: http://arxiv.org/abs/2303.06475v1
- Date: Sat, 11 Mar 2023 18:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:40:36.765314
- Title: Transcription free filler word detection with Neural semi-CRFs
- Title(参考訳): ニューラル半CRFを用いた転写自由充填語検出
- Authors: Ge Zhu, Yujia Yan, Juan-Pablo Caceres and Zhiyao Duan
- Abstract要約: uh" や "um" のような非言語的なフィラー語は、自然発声において一般的であり、ためらいや不確実性を表現する指標として機能する。
特定の非言語的なフィラー語を検出するためのこれまでの研究は、確立された商用自動音声認識(ASR)システムからの転写に大きく依存している。
本研究では,ASRシステムに依存しないフィラー語検出システムについて検討する。
- 参考スコア(独自算出の注目度): 17.096140717566957
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Non-linguistic filler words, such as "uh" or "um", are prevalent in
spontaneous speech and serve as indicators for expressing hesitation or
uncertainty. Previous works for detecting certain non-linguistic filler words
are highly dependent on transcriptions from a well-established commercial
automatic speech recognition (ASR) system. However, certain ASR systems are not
universally accessible from many aspects, e.g., budget, target languages, and
computational power. In this work, we investigate filler word detection system
that does not depend on ASR systems. We show that, by using the structured
state space sequence model (S4) and neural semi-Markov conditional random
fields (semi-CRFs), we achieve an absolute F1 improvement of 6.4% (segment
level) and 3.1% (event level) on the PodcastFillers dataset. We also conduct a
qualitative analysis on the detected results to analyze the limitations of our
proposed system.
- Abstract(参考訳): uh" や "um" のような非言語的なフィラー語は自然発声で一般的であり、ためらいや不確実性を表現する指標として機能する。
特定の非言語的フィラー語を検出する以前の研究は、確立された商用自動音声認識(asr)システムからの書き起こしに大きく依存している。
しかしながら、一部のASRシステムは予算、ターゲット言語、計算能力など、多くの面から普遍的にアクセスできない。
本研究では,ASRシステムに依存しない充填語検出システムについて検討する。
本研究では,構造化状態空間列モデル (S4) とニューラルセミマルコフ条件付き乱数場 (セミCRF) を用いて,PodcastFillers データセットの6.4%(セグメンテーションレベル)と3.1%(イベントレベル)の絶対的なF1改善を実現する。
また,検出された結果の質的分析を行い,提案システムの限界を分析する。
関連論文リスト
- Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Explanations for Automatic Speech Recognition [9.810810252231812]
音声フレームのサブセットとして、ASR転写の説明を提供する。
我々は,画像分類-統計的故障局所化(SFL)とCausalから既存の説明可能なAI技術を適用した。
提案手法は,3種類のASR,Google API,Sphinx,Deepspeechのベースラインモデル,およびCommonvoiceデータセットから得られた100のオーディオサンプルに対して,提案手法による説明の質を評価する。
論文 参考訳(メタデータ) (2023-02-27T11:09:19Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - End-to-End Spoken Language Understanding for Generalized Voice
Assistants [15.241812584273886]
商用音声アシスタント(VA)における一般化音声認識のためのE2Eモデル構築のためのアプローチを提案する。
本研究では,ASRレベルとNLUレベルの両方で事前学習が可能な,完全に微分可能なトランスフォーマーベースの階層システムを提案する。
これは転写と意味分類の両方の損失に基づいて微調整され、多種多様な意図と引数の組み合わせを扱う。
論文 参考訳(メタデータ) (2021-06-16T17:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。