論文の概要: LOTUSDIS: A Thai far-field meeting corpus for robust conversational ASR
- arxiv url: http://arxiv.org/abs/2509.18722v1
- Date: Tue, 23 Sep 2025 07:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.743312
- Title: LOTUSDIS: A Thai far-field meeting corpus for robust conversational ASR
- Title(参考訳): LOTUSDIS:タイの会話型ASRのための遠距離ミーティングコーパス
- Authors: Pattara Tipaksorn, Sumonmas Thatphithakkul, Vataya Chunwijitra, Kwanchiva Thangthai,
- Abstract要約: このデータセットは、3人の参加者と15~20分間のセッションで収集された114時間の自発的で説明されていない対話で構成されている。
音声は、0.12mから10mの距離で6つのマイクタイプにまたがる9つの独立した単チャンネルデバイスによって同時に記録された。
タイのウィスパーのベースラインはWER全体の64.3から38.3に、遠距離WERは81.6から49.5に縮小した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LOTUSDIS, a publicly available Thai meeting corpus designed to advance far-field conversational ASR. The dataset comprises 114 hours of spontaneous, unscripted dialogue collected in 15-20 minute sessions with three participants, where overlapping speech is frequent and natural. Speech was recorded simultaneously by nine independent single-channel devices spanning six microphone types at distances from 0.12 m to 10 m, preserving the authentic effects of reverberation, noise, and device coloration without relying on microphone arrays. We provide standard train, dev, test splits and release a reproducible baseline system. We benchmarked several Whisper variants under zero-shot and fine-tuned conditions. Off-the-shelf models showed strong degradation with distance, confirming a mismatch between pre-training data and Thai far-field speech. Fine-tuning on LOTUSDIS dramatically improved robustness: a Thai Whisper baseline reduced overall WER from 64.3 to 38.3 and far-field WER from 81.6 to 49.5, with especially large gains on the most distant microphones. These results underscore the importance of distance-diverse training data for robust ASR. The corpus is available under CC-BY-SA 4.0. We also release training and evaluation scripts as a baseline system to promote reproducible research in this field.
- Abstract(参考訳): 遠距離対話型ASRを推進するために設計されたタイ語会議コーパス「LOTUSDIS」について紹介する。
データセットは、15~20分間のセッションで収集された114時間の自発的な無説明対話と、3人の参加者からなる。
音声は、0.12mから10mの距離で6つのマイクロフォンタイプにまたがる9つの独立した単一チャンネルデバイスによって同時に記録され、マイクロホンアレイに依存しない残響、ノイズ、デバイスカラー化の真正な効果を保った。
私たちは標準列車、開発、テスト分割を提供し、再現可能なベースラインシステムをリリースします。
ゼロショットおよび微調整条件下でいくつかのWhisper変種をベンチマークした。
オフ・ザ・シェルフモデルでは距離によって強い劣化を示し,事前学習データとタイ遠距離音声の一致を確認した。
タイのウィスパーのベースラインはWER全体を64.3から38.3に、遠距離WERは81.6から49.5に縮小し、特に最も遠距離のマイクでは大きな利得となった。
これらの結果は、ロバストASRのための距離差トレーニングデータの重要性を浮き彫りにした。
CC-BY-SA 4.0で入手できる。
また,本分野における再現可能な研究を促進するベースラインシステムとして,トレーニングおよび評価スクリプトをリリースする。
関連論文リスト
- Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant
Meeting Transcription [21.236634241186458]
本研究では,Natural Office Talkers in Settings of Far-field Audio Recordings (NOTSOFAR-1'') Challenge with datasets and baseline system。
この課題は遠距離話者ダイアリゼーションと遠隔会議シナリオにおける自動音声認識(DASR)に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-16T23:50:26Z) - Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning [39.605491316273046]
本研究では,空間音響データセットを650時間以上の19チャンネル音声,1次アンビソニクス,任意ノイズで提示する。
Space LibriSpeechは機械学習モデルトレーニング用に設計されており、ソース位置、発話方向、室内音響、幾何学のラベルが含まれている。
論文 参考訳(メタデータ) (2023-08-18T12:45:32Z) - Applying wav2vec2 for Speech Recognition on Bengali Common Voices
Dataset [0.0]
We have fine-tuned wav2vec 2.0 to recognize and transcribe Bengali speech。
5グラムの言語モデルを使用して、Levenshtein Distanceはサイズ7,747のテストセットで2.6446であった。
私たちのモデルは、隠れたデータセットで6.234のLevenshtein Distanceを達成する、最高のパフォーマンスでした。
論文 参考訳(メタデータ) (2022-09-11T15:05:42Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone [43.77139614544301]
単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-03-31T02:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。