論文の概要: Time and Tokens: Benchmarking End-to-End Speech Dysfluency Detection
- arxiv url: http://arxiv.org/abs/2409.13582v1
- Date: Fri, 20 Sep 2024 15:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:30:58.046695
- Title: Time and Tokens: Benchmarking End-to-End Speech Dysfluency Detection
- Title(参考訳): Time and Tokens: エンドツーエンド音声障害検出のベンチマーク
- Authors: Xuanru Zhou, Jiachen Lian, Cheol Jun Cho, Jingwen Liu, Zongli Ye, Jinming Zhang, Brittany Morin, David Baquirin, Jet Vonk, Zoe Ezzes, Zachary Miller, Maria Luisa Gorno Tempini, Gopala Anumanchipalli,
- Abstract要約: 音声のディフルエンシモデリングは、繰り返し、ブロック、挿入、置換、削除などの音声のディフルエンシを検出するタスクである。
本研究では,この問題を新しい視点から再考する: 障害のトークン化と検出問題をトークンに基づく自動音声認識問題としてモデル化する。
規則に基づく音声とテキストのディフルエンシシミュレータを提案し、VCTKトケンを開発し、その後、Whisperのようなセク2seqアーキテクチャを開発し、良好な性能を持つ新しいベンチマークを構築する。
- 参考スコア(独自算出の注目度): 6.82179836198974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech dysfluency modeling is a task to detect dysfluencies in speech, such as repetition, block, insertion, replacement, and deletion. Most recent advancements treat this problem as a time-based object detection problem. In this work, we revisit this problem from a new perspective: tokenizing dysfluencies and modeling the detection problem as a token-based automatic speech recognition (ASR) problem. We propose rule-based speech and text dysfluency simulators and develop VCTK-token, and then develop a Whisper-like seq2seq architecture to build a new benchmark with decent performance. We also systematically compare our proposed token-based methods with time-based methods, and propose a unified benchmark to facilitate future research endeavors. We open-source these resources for the broader scientific community. The project page is available at https://rorizzz.github.io/
- Abstract(参考訳): 音声のディフルエンシモデリングは、繰り返し、ブロック、挿入、置換、削除などの音声のディフルエンシを検出するタスクである。
最近の進歩は、この問題を時間に基づく物体検出問題として扱う。
本研究では,この問題を新しい視点から再考する: 障害のトークン化と検出問題をトークンベース自動音声認識(ASR)問題としてモデル化する。
規則に基づく音声とテキストのディフルエンシシミュレータを提案し、VCTKトケンを開発し、その後、Whisperのようなセク2seqアーキテクチャを開発し、良好な性能を持つ新しいベンチマークを構築する。
また,提案手法と時間に基づく手法を体系的に比較し,今後の研究を促進するための統一ベンチマークを提案する。
より広い科学コミュニティのために、これらのリソースをオープンソースにしています。
プロジェクトページはhttps://rorizzz.github.io/で公開されている。
関連論文リスト
- Augmenting Automatic Speech Recognition Models with Disfluency Detection [12.45703869323415]
音声の拡散は、会話や自発的な発話でよく起こる。
現在の研究は、主に、音声の正確な位置と持続時間を見越して、書き起こし中の不一致を検出することに焦点を当てている。
我々は,任意のASRモデルを拡張し,開集合不一致を検出するための推論のみのアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-16T11:13:14Z) - YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Streaming Joint Speech Recognition and Disfluency Detection [30.018034246393725]
音声認識と拡散検出を共同で解くトランスフォーマーベースのエンコーダデコーダモデルを提案する。
パイプラインアプローチと比較して、ジョイントモデルは、認識エラーに対して拡散検出を堅牢にする音響情報を利用することができる。
提案したジョイントモデルでは,BERTベースのパイプラインアプローチよりも精度とレイテンシが優れていた。
論文 参考訳(メタデータ) (2022-11-16T07:34:20Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Selecting and combining complementary feature representations and
classifiers for hate speech detection [6.745479230590518]
ヘイトスピーチは、毎日発生する大量のデータのために、ソーシャルネットワークにおいて大きな問題である。
最近の研究は、憎しみのあるポストと単に皮肉や攻撃的な言語を区別するために必要なニュアンスを扱う機械学習(ML)の有用性を示している。
この研究は、複数の特徴抽出手法と異なる分類モデルの組み合わせが必要であると主張している。
論文 参考訳(メタデータ) (2022-01-18T03:46:49Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。