論文の概要: Vietnamese Automatic Speech Recognition: A Revisit
- arxiv url: http://arxiv.org/abs/2603.14779v1
- Date: Mon, 16 Mar 2026 03:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.028491
- Title: Vietnamese Automatic Speech Recognition: A Revisit
- Title(参考訳): ベトナム語自動音声認識:再考
- Authors: Thi Vu, Linh The Nguyen, Dat Quoc Nguyen,
- Abstract要約: 本稿では,多種多様でノイズの多いオープンソースソースから高品質なASRデータセットを構築するための,新しいデータ集約と前処理パイプラインを提案する。
私たちのパイプラインには、データの多様性、バランス、単語レベルのタイムスタンプのような重要な機能を含むことを保証するための厳格な処理ステップが組み込まれています。
ベトナム語に応用することで、我々の方法論の有効性を実証し、その結果、統一的で高品質な500時間データセットが得られた。
- 参考スコア(独自算出の注目度): 14.144721540922363
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic Speech Recognition (ASR) performance is heavily dependent on the availability of large-scale, high-quality datasets. For low-resource languages, existing open-source ASR datasets often suffer from insufficient quality and inconsistent annotation, hindering the development of robust models. To address these challenges, we propose a novel and generalizable data aggregation and preprocessing pipeline designed to construct high-quality ASR datasets from diverse, potentially noisy, open-source sources. Our pipeline incorporates rigorous processing steps to ensure data diversity, balance, and the inclusion of crucial features like word-level timestamps. We demonstrate the effectiveness of our methodology by applying it to Vietnamese, resulting in a unified, high-quality 500-hour dataset that provides a foundation for training and evaluating state-of-the-art Vietnamese ASR systems. Our project page is available at https://github.com/qualcomm-ai-research/PhoASR.
- Abstract(参考訳): 音声認識(ASR)の性能は、大規模で高品質なデータセットの可用性に大きく依存している。
低リソース言語では、既存のオープンソースのASRデータセットは、品質が不十分で一貫性のないアノテーションに悩まされ、堅牢なモデルの開発を妨げている。
これらの課題に対処するために,多種多様でノイズの多いオープンソースソースから高品質なASRデータセットを構築するために設計された,新規で一般化可能なデータアグリゲーションと事前処理パイプラインを提案する。
私たちのパイプラインには、データの多様性、バランス、単語レベルのタイムスタンプのような重要な機能を含むことを保証するための厳格な処理ステップが組み込まれています。
ベトナムのASRシステムをトレーニングし評価するための基盤となる,統一的で高品質な500時間データセットをベトナムに適用することで,我々の方法論の有効性を実証する。
私たちのプロジェクトページはhttps://github.com/qualcomm-ai-research/PhoASR.comで公開されています。
関連論文リスト
- How much speech data is necessary for ASR in African languages? An evaluation of data scaling in Kinyarwanda and Kikuyu [0.5678475267829229]
低リソースアフリカ語の自動音声認識システムの開発は, 音声データに制限があるため, 依然として困難である。
OpenAIのWhisperのような大規模多言語モデルの最近の進歩は、低リソースのASR開発に有望な経路を提供する。
2つのバントゥー言語に対する包括的実験によりWhisperの性能を評価する。
論文 参考訳(メタデータ) (2025-10-08T16:55:28Z) - VietASR: Achieving Industry-level Vietnamese ASR with 50-hour labeled data and Large-Scale Speech Pretraining [41.555790191562224]
大量のラベル付きデータとラベル付きデータの小さなセットを活用する新しいASRトレーニングパイプラインであるVietaSRを提案する。
70,000時間のラベル付きデータに対する事前トレーニングと,50時間ラベル付きデータに対する微調整により,軽量だが強力なASRモデルが得られることを示す。
私たちのコードとモデルは、低リソースのASRの研究を促進するためにオープンソース化されます。
論文 参考訳(メタデータ) (2025-05-23T14:26:11Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Adversarial Meta Sampling for Multilingual Low-Resource Speech
Recognition [159.9312272042253]
多言語メタラーニングASR(MML-ASR)を改善するための新しい逆メタサンプリング(AMS)アプローチを開発しています。
AMSは、各ソース言語のタスクサンプリング確率を適応的に決定する。
MML-ASRにAMSを適用すると、2つの多言語データセットの実験結果が大幅にパフォーマンス向上します。
論文 参考訳(メタデータ) (2020-12-22T09:33:14Z) - WER we are and WER we think we are [11.819335591315316]
我々は、ベンチマークデータセット上の最新の自動音声認識(ASR)システムによって達成された、非常に低い単語誤り率(WER)に関する最近の報告に対する懐疑論を表現している。
我々は、実生活における自然会話とHUB'05公開ベンチマークのデータセット上で、最先端の商用ASRシステム3つを比較した。
我々は、堅牢なASRシステムのトレーニングとテストのための高品質なアノテーションを備えた実生活のマルチドメインデータセットの作成を支援する一連のガイドラインを定式化する。
論文 参考訳(メタデータ) (2020-10-07T14:20:31Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。