論文の概要: ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2506.04635v1
- Date: Thu, 05 Jun 2025 05:13:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.540953
- Title: ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition
- Title(参考訳): ViCocktail:ベトナムの音声認識のためのマルチモーダルデータ収集
- Authors: Thai-Binh Nguyen, Thi Van Nguyen, Quoc Truong Do, Chi Mai Luong,
- Abstract要約: 本稿では,生ビデオからAVSRデータセットを生成するための実用的な手法を提案する。
ベトナムのためのベースラインAVSRモデルを開発することで、その幅広い適用性を実証する。
- 参考スコア(独自算出の注目度): 4.0048516930686535
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Audio-Visual Speech Recognition (AVSR) has gained significant attention recently due to its robustness against noise, which often challenges conventional speech recognition systems that rely solely on audio features. Despite this advantage, AVSR models remain limited by the scarcity of extensive datasets, especially for most languages beyond English. Automated data collection offers a promising solution. This work presents a practical approach to generate AVSR datasets from raw video, refining existing techniques for improved efficiency and accessibility. We demonstrate its broad applicability by developing a baseline AVSR model for Vietnamese. Experiments show the automatically collected dataset enables a strong baseline, achieving competitive performance with robust ASR in clean conditions and significantly outperforming them in noisy environments like cocktail parties. This efficient method provides a pathway to expand AVSR to more languages, particularly under-resourced ones.
- Abstract(参考訳): 近年,音声のみに依存する従来の音声認識システムに対して,雑音に対する頑健性から,AVSR (Audio-Visual Speech Recognition) が注目されている。
この利点にもかかわらず、AVSRモデルは、特に英語以外のほとんどの言語において、広範囲なデータセットの不足によって制限され続けている。
自動データ収集は有望なソリューションを提供する。
本研究は、生のビデオからAVSRデータセットを生成するための実践的なアプローチを示し、効率とアクセシビリティを向上させるための既存の技術を改善する。
ベトナムのためのベースラインAVSRモデルを開発することで、その幅広い適用性を実証する。
実験によると、自動収集されたデータセットは強力なベースラインを可能にし、クリーンな環境で堅牢なASRと競合するパフォーマンスを実現し、カクテルパーティーのような騒々しい環境でそれらを著しく上回っている。
この効率的な方法は、AVSRをより多くの言語、特にリソース不足の言語に拡張する経路を提供する。
関連論文リスト
- Cocktail-Party Audio-Visual Speech Recognition [58.222892601847924]
本研究では,現在のAVSRシステムのベンチマークを行うために設計された,新しい音声-視覚カクテルパーティデータセットを提案する。
音声とサイレント顔の両方からなる1526時間AVSRデータセットをコントリビュートし,カクテルパーティー環境における顕著な性能向上を実現した。
我々の手法は、WERを最先端と比較して67%削減し、WERを明示的なセグメンテーション手法に頼ることなく、極音の119%から39.2%に削減する。
論文 参考訳(メタデータ) (2025-06-02T19:07:51Z) - Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Iteratively Improving Speech Recognition and Voice Conversion [10.514009693947227]
本稿ではまず,VCモデルのトレーニング中にコンテンツ保存を確保するために使用されるASRモデルをトレーニングする。
次のイテレーションでは、データ拡張手法としてVCモデルを使用し、ASRモデルをさらに微調整し、多様な話者に一般化する。
改良されたASRモデルをVCモデルと逆転モデルの訓練に反復的に活用することにより、両モデルの改善を実験的に示す。
論文 参考訳(メタデータ) (2023-05-24T11:45:42Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。