論文の概要: Automatic Disfluency Detection from Untranscribed Speech
- arxiv url: http://arxiv.org/abs/2311.00867v1
- Date: Wed, 1 Nov 2023 21:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:28:37.100209
- Title: Automatic Disfluency Detection from Untranscribed Speech
- Title(参考訳): 非転写音声の自動拡散検出
- Authors: Amrit Romana, Kazuhito Koishida, Emily Mower Provost
- Abstract要約: 発声は、高頻度の不一致を特徴とする発声障害である。
自動逆流検出は、不安定な個人に対する治療計画を立案するのに役立ちます。
本研究では,フレームレベルの自動ディフルエンシ検出と分類のための言語,音響,マルチモーダル手法について検討する。
- 参考スコア(独自算出の注目度): 25.534535098405602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech disfluencies, such as filled pauses or repetitions, are disruptions in
the typical flow of speech. Stuttering is a speech disorder characterized by a
high rate of disfluencies, but all individuals speak with some disfluencies and
the rates of disfluencies may by increased by factors such as cognitive load.
Clinically, automatic disfluency detection may help in treatment planning for
individuals who stutter. Outside of the clinic, automatic disfluency detection
may serve as a pre-processing step to improve natural language understanding in
downstream applications. With this wide range of applications in mind, we
investigate language, acoustic, and multimodal methods for frame-level
automatic disfluency detection and categorization. Each of these methods relies
on audio as an input. First, we evaluate several automatic speech recognition
(ASR) systems in terms of their ability to transcribe disfluencies, measured
using disfluency error rates. We then use these ASR transcripts as input to a
language-based disfluency detection model. We find that disfluency detection
performance is largely limited by the quality of transcripts and alignments. We
find that an acoustic-based approach that does not require transcription as an
intermediate step outperforms the ASR language approach. Finally, we present
multimodal architectures which we find improve disfluency detection performance
over the unimodal approaches. Ultimately, this work introduces novel approaches
for automatic frame-level disfluency and categorization. In the long term, this
will help researchers incorporate automatic disfluency detection into a range
of applications.
- Abstract(参考訳): 充満停止や繰り返しのような音声の拡散は、典型的な音声の流れの破壊である。
発声は、高い反響率を特徴とする発声障害であるが、全ての個人は、何らかの反響と、認知負荷などの要因によって増大する可能性がある。
臨床的に、自動不流動検出は、混乱した個人の治療計画に役立つかもしれない。
クリニック以外では、自動不流動検出は下流のアプリケーションにおける自然言語理解を改善する前処理ステップとして機能する可能性がある。
この幅広い応用を念頭に置いて,フレームレベルの自動拡散検出と分類のための言語,音響,マルチモーダル手法について検討する。
これらの手法は入力として音声に依存する。
まず,複数の自動音声認識(asr)システムについて,不整合率を用いて測定した不整合の書き起こし能力の観点から評価する。
次に、これらのASR文字を言語に基づく不規則検出モデルへの入力として使用する。
その結果, ディフルエンシ検出性能は, 書き起こしやアライメントの品質に大きく制限されていることがわかった。
中間段階として書き起こしを必要としない音響的アプローチがASR言語アプローチより優れていることがわかった。
最後に,マルチモーダルアーキテクチャを提案することで,ユニモーダルアプローチよりも分散検出性能が向上することを示す。
最終的に、この研究はフレームレベルの自動分散と分類のための新しいアプローチを導入している。
長期的には、研究者が様々なアプリケーションに自動拡散検出を組み込むのに役立つだろう。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Augmenting Automatic Speech Recognition Models with Disfluency Detection [12.45703869323415]
音声の拡散は、会話や自発的な発話でよく起こる。
現在の研究は、主に、音声の正確な位置と持続時間を見越して、書き起こし中の不一致を検出することに焦点を当てている。
我々は,任意のASRモデルを拡張し,開集合不一致を検出するための推論のみのアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-16T11:13:14Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Careful Whisper -- leveraging advances in automatic speech recognition
for robust and interpretable aphasia subtype classification [0.0]
本稿では,音声記録から音声異常を同定し,音声障害の評価を支援するための完全自動アプローチを提案する。
Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。
そこで本研究では,これらの書き起こしから特徴を抽出し,健全な音声のプロトタイプを作成するために,いくつかの自然言語処理手法を適用した。
論文 参考訳(メタデータ) (2023-08-02T15:53:59Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - The Far Side of Failure: Investigating the Impact of Speech Recognition
Errors on Subsequent Dementia Classification [8.032686410648274]
自然発話で検出される言語異常は、認知障害などの認知障害のスクリーニングなど、様々な臨床応用の可能性を示唆している。
自己教師付き学習(SSL)自動音声認識(ASR)モデルにおいて,臨床環境から抽出した難解な音声サンプルでは,有意な性能が得られない。
我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムは、動詞の文字起こしに基づく分類よりも、より下流の分類精度の高い転写文を生成できるということである。
論文 参考訳(メタデータ) (2022-11-11T17:06:45Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Auxiliary Sequence Labeling Tasks for Disfluency Detection [6.460424516393765]
本稿では,NERとPOSを補助的シーケンスラベリング(SL)タスクとして用い,不規則検出のための手法を提案する。
本稿では, 副SLタスクを用いた拡散検出モデルのトレーニングにより, 拡散検出におけるFスコアの向上が期待できることを示す。
広範に使われている英語スイッチボードデータセットによる実験結果から,本手法は拡散検出における従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-10-24T02:51:17Z) - End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。
エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。
統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2020-09-22T03:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。