論文の概要: Stuttering-Aware Automatic Speech Recognition for Indonesian Language
- arxiv url: http://arxiv.org/abs/2601.03727v2
- Date: Wed, 14 Jan 2026 07:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 14:49:40.986657
- Title: Stuttering-Aware Automatic Speech Recognition for Indonesian Language
- Title(参考訳): インドネシア語音声の自動音声認識
- Authors: Fadhil Muhammad, Alwin Djuliansah, Adrian Aryaputra Hamzah, Kurniawati Azizah,
- Abstract要約: 本稿では,繰り返しや長文を流布テキストに注入することにより,音声を合成するデータ拡張フレームワークを提案する。
本稿では,この合成データを用いて,移動学習を用いたインドネシアのWhisperモデルの微調整を行う。
実験により,このターゲット合成露光は,流速セグメントの性能を維持しながら,破れた音声の認識誤差を一定に低減することを示した。
- 参考スコア(独自算出の注目度): 0.04666493857924358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition systems have achieved remarkable performance on fluent speech but continue to degrade significantly when processing stuttered speech, a limitation that is particularly acute for low-resource languages like Indonesian where specialized datasets are virtually non-existent. To overcome this scarcity, we propose a data augmentation framework that generates synthetic stuttered audio by injecting repetitions and prolongations into fluent text through a combination of rule-based transformations and large language models followed by text-to-speech synthesis. We apply this synthetic data to fine-tune a pre-trained Indonesian Whisper model using transfer learning, enabling the architecture to adapt to dysfluent acoustic patterns without requiring large-scale real-world recordings. Our experiments demonstrate that this targeted synthetic exposure consistently reduces recognition errors on stuttered speech while maintaining performance on fluent segments, validating the utility of synthetic data pipelines for developing more inclusive speech technologies in under-represented languages.
- Abstract(参考訳): 自動音声認識システムは、流速音声において顕著な性能を達成しているが、散らばった音声を処理する際には著しく劣化し続けており、特にインドネシアのような、特別なデータセットが存在しない低リソース言語では、その限界は特に深刻である。
この不足を克服するために、ルールベース変換と大規模言語モデルの組み合わせにより、繰り返しと長文を流用し、テキストから音声までの合成音声を生成するデータ拡張フレームワークを提案する。
我々は,この合成データを伝達学習を用いたインドネシアのWhisperモデルの微調整に適用し,大規模な実世界記録を必要とせず,不規則な音響パターンへの適応を可能にする。
実験により,このターゲット合成露光は,流速セグメントの性能を維持しつつも,破れ音声の認識誤差を一定に低減し,より包摂的な音声技術を開発するための合成データパイプラインの有用性を検証した。
関連論文リスト
- Bridging the Language Gap: Synthetic Voice Diversity via Latent Mixup for Equitable Speech Recognition [8.948233216872211]
音声タスクのための現代の機械学習モデルは、しばしば英語や他の豊富な言語で優れたパフォーマンスを示す。
この格差は、データ収集が困難かつコストのかかる低リソース言語において、不公平なパフォーマンスギャップをもたらします。
本稿では,このギャップを緩和するために設計された音声コーパスのための新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-11-25T17:35:57Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Speechless: Speech Instruction Training Without Speech for Low Resource Languages [14.223895501862811]
音声コマンドの理解と実行を微調整する大規模言語モデルには,音声命令データの不足が不可欠である。
我々の新しいアプローチは、TSの必要性を回避し、意味表現レベルでの合成を停止することで、この問題に対処する。
我々は,合成意味表現を事前訓練されたWhisperエンコーダと整合させ,LLMをテキスト命令で微調整し,推論中の音声命令を理解する能力を維持しながら実現した。
論文 参考訳(メタデータ) (2025-05-23T03:05:47Z) - Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages [49.31519786009296]
音声変換モデルを英語の変形音声(UASpeech)に微調整し、話者特性と韻律歪みの両方を符号化する。
次に、健康な非英語音声(FLEURS)を非英語の変形性音声に変換する。
生成されたデータは、MMS(Massively Multilingually Speech)と呼ばれる多言語ASRモデルの微調整に使用される。
論文 参考訳(メタデータ) (2025-05-20T20:03:45Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition [31.58289343561422]
合成データ生成の範囲内で, 5種類のTSデコーダアーキテクチャを比較し, CTCに基づく音声認識学習への影響を示す。
データ生成における自己回帰復号法は,非自己回帰復号法よりも優れており,TTS一般化能力を定量化するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-31T09:37:27Z) - Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation [6.225927189801006]
本稿では,パジングパターンに関連する構文的手法と音響的手法の両方を包括的にモデル化する新しい枠組みを提案する。
注目に値することに、我々のフレームワークは、より拡張され複雑なドメイン外文(OOD)であっても、自然言語を一貫して生成する能力を持っている。
論文 参考訳(メタデータ) (2024-04-03T09:17:38Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。