論文の概要: VoxVietnam: a Large-Scale Multi-Genre Dataset for Vietnamese Speaker Recognition
- arxiv url: http://arxiv.org/abs/2501.00328v1
- Date: Tue, 31 Dec 2024 07:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:43.002481
- Title: VoxVietnam: a Large-Scale Multi-Genre Dataset for Vietnamese Speaker Recognition
- Title(参考訳): VoxVietnam:ベトナム語話者認識のための大規模マルチジャンルデータセット
- Authors: Hoang Long Vu, Phuong Tuan Dat, Pham Thao Nhi, Nguyen Song Hao, Nguyen Thi Thu Trang,
- Abstract要約: 本稿では,ベトナム語話者認識のための最初のマルチジャンルデータセットであるVoxVietnamについて紹介する。
本研究では,話者認識におけるマルチジャンル現象の課題と,提案したデータセットを用いたマルチジャンル学習における性能向上について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent research in speaker recognition aims to address vulnerabilities due to variations between enrolment and test utterances, particularly in the multi-genre phenomenon where the utterances are in different speech genres. Previous resources for Vietnamese speaker recognition are either limited in size or do not focus on genre diversity, leaving studies in multi-genre effects unexplored. This paper introduces VoxVietnam, the first multi-genre dataset for Vietnamese speaker recognition with over 187,000 utterances from 1,406 speakers and an automated pipeline to construct a dataset on a large scale from public sources. Our experiments show the challenges posed by the multi-genre phenomenon to models trained on a single-genre dataset, and demonstrate a significant increase in performance upon incorporating the VoxVietnam into the training process. Our experiments are conducted to study the challenges of the multi-genre phenomenon in speaker recognition and the performance gain when the proposed dataset is used for multi-genre training.
- Abstract(参考訳): 近年の話者認識研究は, 発声が音声のジャンルによって異なる多言語現象において, 発声と発声の相違による脆弱性に対処することを目的としている。
ベトナム語話者認識のためのこれまでのリソースは、サイズに制限されているか、ジャンルの多様性に重点を置いていないかのいずれかであり、探索されていないマルチジャンル効果の研究を残している。
本稿では,ベトナム語話者認識のための最初のマルチジャンルデータセットであるVoxVietnamについて紹介する。
実験では、単一ジャンルデータセット上で訓練されたモデルに対して、マルチジャンル現象によって引き起こされる課題を示し、トレーニングプロセスにVoxVietnamを組み込むことにより、大幅な性能向上を示す。
本研究では,話者認識におけるマルチジャンル現象の課題と,提案したデータセットを用いたマルチジャンル学習における性能向上について検討した。
関連論文リスト
- Multi-Dialect Vietnamese: Task, Dataset, Baseline Models and Challenges [0.964547614383472]
ベトナム全土で話されている63の方言の多様性を包括的に分析したベトナム語多方言データセットについて紹介する。
我々のデータセットは、約19,000の発話からなる102.56時間の音声からなり、関連するテキストには120万以上の単語が含まれている。
論文 参考訳(メタデータ) (2024-10-04T14:17:56Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - The MuSe 2024 Multimodal Sentiment Analysis Challenge: Social Perception and Humor Recognition [64.5207572897806]
マルチモーダル・センティメント・アナリティクス・チャレンジ (MuSe) 2024は、現代の2つのマルチモーダル・インフルエンスと感情分析の問題に対処する。
Social Perception Sub-Challenge (MuSe-Perception)では、参加者は16種類の個人の社会的属性を予測する。
クロスカルカルカルチャー・ヒューモー検出サブチャレンジ(MuSe-Humor)データセットは、Passau Spontaneous Football Coach Humorデータセット上に拡張される。
論文 参考訳(メタデータ) (2024-06-11T22:26:20Z) - Cognitive Insights Across Languages: Enhancing Multimodal Interview Analysis [0.6062751776009752]
軽度認知障害と認知スコアを予測できるマルチモーダルモデルを提案する。
提案モデルでは,インタビューで使用した言語を書き起こし,区別する能力を示す。
提案手法では,提案手法から得られた様々な特徴を詳細に検討する。
論文 参考訳(メタデータ) (2024-06-11T17:59:31Z) - Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants [10.227469020901232]
本稿ではSonos Voice Control Bias Assessmentデータセットを紹介する。
1,038人のスピーカー、166時間、170kのオーディオサンプル、9,040のユニークなラベル付き文字起こし。
その結果、年齢、方言、民族によって統計的に有意な差が見られた。
論文 参考訳(メタデータ) (2024-05-14T12:53:32Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。