論文の概要: RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks
- arxiv url: http://arxiv.org/abs/2603.02368v1
- Date: Mon, 02 Mar 2026 20:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.535853
- Title: RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks
- Title(参考訳): RO-N3WS: ルーマニア語音声ベンチマークを用いた低リソースASRにおける一般化の促進
- Authors: Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe,
- Abstract要約: 我々は、自動音声認識(ASR)における一般化を改善するために設計されたルーマニア語音声データセットであるRO-N3WSを紹介する。
RO-N3WSは、放送ニュース、文学的オーディオブック、映画対話、子供の物語、会話ポッドキャストのスピーチから収集された126時間以上の音声を収録する。
我々は、ゼロショットと微調整の両方で最先端のASRシステムを評価し、表現型TSモデルで生成された合成データを用いて制御された比較を行う。
- 参考スコア(独自算出の注目度): 42.17343824099138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce RO-N3WS, a benchmark Romanian speech dataset designed to improve generalization in automatic speech recognition (ASR), particularly in low-resource and out-of-distribution (OOD) conditions. RO-N3WS comprises over 126 hours of transcribed audio collected from broadcast news, literary audiobooks, film dialogue, children's stories, and conversational podcast speech. This diversity enables robust training and fine-tuning across stylistically distinct domains. We evaluate several state-of-the-art ASR systems (Whisper, Wav2Vec 2.0) in both zero-shot and fine-tuned settings, and conduct controlled comparisons using synthetic data generated with expressive TTS models. Our results show that even limited fine-tuning on real speech from RO-N3WS yields substantial WER improvements over zero-shot baselines. We will release all models, scripts, and data splits to support reproducible research in multilingual ASR, domain adaptation, and lightweight deployment.
- Abstract(参考訳): RO-N3WSは,音声認識(ASR)における一般化,特に低リソース・アウト・オブ・ディストリビューション(OOD)環境での一般化を実現するために設計された,ルーマニアのベンチマーク音声データセットである。
RO-N3WSは、放送ニュース、文学的オーディオブック、映画対話、子供の物語、会話ポッドキャストのスピーチから収集された126時間以上の音声を収録する。
この多様性は、スタイリスティックに異なるドメイン間で堅牢なトレーニングと微調整を可能にする。
我々は、ゼロショットと微調整の両方で最先端のASRシステム(Whisper, Wav2Vec 2.0)を評価し、表現型TSモデルで生成された合成データを用いて制御された比較を行う。
その結果,RO-N3WS による実音声の微調整が制限されることさえも,ゼロショットベースラインよりもかなりの WER 改善をもたらすことがわかった。
私たちは、多言語ASR、ドメイン適応、軽量デプロイメントにおける再現可能な研究をサポートするために、すべてのモデル、スクリプト、データ分割をリリースします。
関連論文リスト
- Speech Recognition Model Improves Text-to-Speech Synthesis using Fine-Grained Reward [4.375679183191095]
ASR-driven Attentive Reward (W3AR)による単語レベルTSアライメントの導入
W3ARは、事前訓練されたASRモデルからの注意を使って、TSモデルによって予測されるシーケンスのよりきめ細かいアライメントと最適化を駆動する。
実験により、W3ARは既存のTSシステムの品質を改善し、目に見えない話者に対するゼロショットロバスト性を強化することが示された。
論文 参考訳(メタデータ) (2025-11-12T17:30:13Z) - Speech-DRAME: A Framework for Human-Aligned Benchmarks in Speech Role-Play [68.54773980519457]
Speech-DRAMEは3つのレベルで貢献する統合フレームワークである。
音声ロールプレイを評価するための、最初の包括的で再現可能な基盤を提供する。
論文 参考訳(メタデータ) (2025-11-03T06:12:40Z) - Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition [26.693942793501204]
エンドツーエンド自動音声キーワード認識(SKR)のための新しい言語・ユニバーサルアプローチを提案する。
Wav2Vec2.0はロバストな音声表現を生成するために使われ、続いて線形出力層が属性列を生成する。
訓練不能な発音モデルでは、属性のシーケンスを多言語設定で音声キーワードにマッピングする。
論文 参考訳(メタデータ) (2024-06-04T16:59:11Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - ReVISE: Self-Supervised Speech Resynthesis with Visual Input for
Universal and Generalized Speech Enhancement [40.29155338515071]
ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルである。
単一のモデルで全てのLRS3オーディオ視覚強調タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-21T21:36:52Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。