論文の概要: VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin
- arxiv url: http://arxiv.org/abs/2505.21445v1
- Date: Tue, 27 May 2025 17:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.825174
- Title: VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin
- Title(参考訳): VoxAging: 英語とマンダリンにおける大規模縦長データセットを用いた連続追跡話者の老化
- Authors: Zhiqi Ai, Meixuan Bao, Zhiyong Chen, Zhi Yang, Xinnuo Li, Shugong Xu,
- Abstract要約: 数年にわたって293人の話者から収集された大規模長手データセットを提示し、最長の期間は17年(約900週間)である。
話者の老化現象とその高度な話者検証システムへの影響について検討し、個々の話者老化過程を分析し、年齢群や性別などの要因が話者老化研究に与える影響について検討した。
- 参考スコア(独自算出の注目度): 14.375859578488456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of speaker verification systems is adversely affected by speaker aging. However, due to challenges in data collection, particularly the lack of sustained and large-scale longitudinal data for individuals, research on speaker aging remains difficult. In this paper, we present VoxAging, a large-scale longitudinal dataset collected from 293 speakers (226 English speakers and 67 Mandarin speakers) over several years, with the longest time span reaching 17 years (approximately 900 weeks). For each speaker, the data were recorded at weekly intervals. We studied the phenomenon of speaker aging and its effects on advanced speaker verification systems, analyzed individual speaker aging processes, and explored the impact of factors such as age group and gender on speaker aging research.
- Abstract(参考訳): 話者認証システムの性能は話者の老化に悪影響を及ぼす。
しかし,データ収集の課題,特に個人にとって持続的かつ大規模に縦断的なデータが欠如していることから,話者の老化に関する研究は依然として困難である。
本稿では,293人の話者(226人の英語話者と67人のマンダリン話者)から数年間にわたって収集された大規模な時系列データセットであるVoxAgingについて紹介する。
各話者について、データは毎週間隔で記録された。
話者の老化現象とその高度な話者検証システムへの影響について検討し、個々の話者老化過程を分析し、年齢群や性別などの要因が話者老化研究に与える影響について検討した。
関連論文リスト
- SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors [23.837811649327094]
SeniorTalkは、注意深い注釈付き中国語音声対話データセットである。
このデータセットには、202人の参加者を含む101人の自然な会話から55.53時間のスピーチが含まれている。
話者検証,話者ダイアリゼーション,音声認識,音声編集タスクについて実験を行った。
論文 参考訳(メタデータ) (2025-03-20T11:31:47Z) - Analysis of Speech Temporal Dynamics in the Context of Speaker Verification and Voice Anonymization [17.048523623756623]
自動話者検証および話者音声匿名化タスクへの適用における音声時間ダイナミクスの影響について検討する。
音素持続時間のみに基づいて自動話者検証を行うための指標をいくつか提案する。
論文 参考訳(メタデータ) (2024-12-22T21:18:08Z) - Speaker Verification in Agent-Generated Conversations [47.6291644653831]
近年の大型言語モデル (LLM) の成功は、様々な話者の特徴やスタイルに合わせたロールプレイング・会話エージェントを開発し、汎用的・特殊な対話タスクを遂行する能力を高めるために広く関心を集めている。
本研究では,2つの発話が同一話者から発せられるかどうかを検証することを目的とした,エージェント生成会話における話者検証という,新たな評価課題を紹介する。
論文 参考訳(メタデータ) (2024-05-16T14:46:18Z) - Leveraging Speaker Embeddings with Adversarial Multi-task Learning for
Age Group Classification [0.0]
本研究では, 対人多タスク学習から派生した話者識別型埋め込みを用いて, 年齢層における特徴の整合とドメイン差の低減を図る。
VoxCeleb Enrichment データセットの実験結果から,多目的シナリオにおける適応型対向ネットワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-01-22T05:01:13Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - A Longitudinal Multi-modal Dataset for Dementia Monitoring and Diagnosis [22.672055089496972]
健常者や認知症者から収集した, 細粒度長大な多モードコーパスについて紹介した。
コーパスは音声による会話で構成され、そのサブセットは書き起こされ、型付けされた思考と関連する言語外情報から構成される。
論文 参考訳(メタデータ) (2021-09-03T14:02:12Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。