論文の概要: The Voice Timbre Attribute Detection 2025 Challenge Evaluation Plan
- arxiv url: http://arxiv.org/abs/2505.09382v1
- Date: Wed, 14 May 2025 13:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.474062
- Title: The Voice Timbre Attribute Detection 2025 Challenge Evaluation Plan
- Title(参考訳): 声帯属性検出2025の課題評価計画
- Authors: Zhengyan Sheng, Jinghao He, Liping Chen, Kong Aik Lee, Zhen-Hua Ling,
- Abstract要約: The Voice Timbre Attribute Detection (VtaD) 2025 Challengeは、音声の音色特性を比較的に説明することに焦点を当てている。
VtaD 2025チャレンジは5月に始まり、中国・江江で開催されるNCMMSC2025カンファレンスでの特別提案で締めくくられる。
- 参考スコア(独自算出の注目度): 40.14712328633083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice timbre refers to the unique quality or character of a person's voice that distinguishes it from others as perceived by human hearing. The Voice Timbre Attribute Detection (VtaD) 2025 challenge focuses on explaining the voice timbre attribute in a comparative manner. In this challenge, the human impression of voice timbre is verbalized with a set of sensory descriptors, including bright, coarse, soft, magnetic, and so on. The timbre is explained from the comparison between two voices in their intensity within a specific descriptor dimension. The VtaD 2025 challenge starts in May and culminates in a special proposal at the NCMMSC2025 conference in October 2025 in Zhenjiang, China.
- Abstract(参考訳): 声の音色(Voice timbre)は、人間の聴覚によって知覚されるものとして他者と区別される人の声の独特の性質や性格を指す。
The Voice Timbre Attribute Detection (VtaD) 2025 Challengeは、音声の音色特性を比較的に説明することに焦点を当てている。
この課題では、人間の声の音色の印象は、明るい、粗い、柔らかい、磁性などを含む一連の感覚記述子で言葉化される。
音色は、特定のディスクリプタ次元内での2つの声の強度の比較から説明される。
VtaD 2025チャレンジは5月に始まり、中国・江江で開催されるNCMMSC2025カンファレンスでの特別提案で締めくくられる。
関連論文リスト
- A Novel Labeled Human Voice Signal Dataset for Misbehavior Detection [0.7223352886780369]
本研究は,音声認識のための自動学習システムにおける音声トーンと配信の重要性を強調した。
これは、人間の行動が音声信号の知覚と分類に与える影響を解明することにより、音声信号解析の幅広い分野に寄与する。
論文 参考訳(メタデータ) (2024-06-28T18:55:07Z) - Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding [46.25816642820348]
我々は、人間の知覚を維持しながら、音声認識に対して音声属性を変更することに重点を置いている。
話者ゆがみ機構を組み込んだ音声生成フレームワークを用いて匿名化音声を生成する。
LibriSpeechデータセットで行った実験では、話者の属性は、その人の知覚が処理された発話の60.71%で保存されていることが判明した。
論文 参考訳(メタデータ) (2024-06-12T13:33:24Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Defending Your Voice: Adversarial Attack on Voice Conversion [70.19396655909455]
音声変換に対する対人攻撃を最初に行う試みについて報告する。
音声を守らなければならない話者の発話に、人間の騒音が知覚できないことを紹介する。
その結果, 変換された発話の話者特性は, 防御された話者と明らかに異なることがわかった。
論文 参考訳(メタデータ) (2020-05-18T14:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。