論文の概要: Introducing voice timbre attribute detection
- arxiv url: http://arxiv.org/abs/2505.09661v1
- Date: Wed, 14 May 2025 13:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.044502
- Title: Introducing voice timbre attribute detection
- Title(参考訳): 音声音色特性検出の導入
- Authors: Jinghao He, Zhengyan Sheng, Liping Chen, Kong Aik Lee, Zhen-Hua Ling,
- Abstract要約: 本稿では,音声信号によって伝達される音色を説明することに焦点を当て,音声音色属性検出(vTAD)と呼ばれるタスクを導入する。
一対の発話を処理し、その強度を指定された音色記述子で比較する。
発話音声から抽出した話者埋め込みに基づいて構築した枠組みを提案する。
- 参考スコア(独自算出の注目度): 40.14712328633083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on explaining the timbre conveyed by speech signals and introduces a task termed voice timbre attribute detection (vTAD). In this task, voice timbre is explained with a set of sensory attributes describing its human perception. A pair of speech utterances is processed, and their intensity is compared in a designated timbre descriptor. Moreover, a framework is proposed, which is built upon the speaker embeddings extracted from the speech utterances. The investigation is conducted on the VCTK-RVA dataset. Experimental examinations on the ECAPA-TDNN and FACodec speaker encoders demonstrated that: 1) the ECAPA-TDNN speaker encoder was more capable in the seen scenario, where the testing speakers were included in the training set; 2) the FACodec speaker encoder was superior in the unseen scenario, where the testing speakers were not part of the training, indicating enhanced generalization capability. The VCTK-RVA dataset and open-source code are available on the website https://github.com/vTAD2025-Challenge/vTAD.
- Abstract(参考訳): 本稿では,音声信号によって伝達される音色を説明することに焦点を当て,音声音色属性検出(vTAD)と呼ばれるタスクを導入する。
この課題では、音声の音色は、その人間の知覚を記述する感覚特性のセットで説明される。
一対の発話を処理し、その強度を指定された音色記述子で比較する。
さらに,発話音声から抽出した話者埋め込みに基づく枠組みを提案する。
調査はVCTK-RVAデータセットを用いて行われた。
ECAPA-TDNNおよびFACodec話者エンコーダの実験的検討
1) ECAPA-TDNN 話者エンコーダは, 試験用話者をトレーニングセットに含める場合において, より有能であった。
2) FACodec 話者エンコーダは, テスト用話者が訓練に含まれておらず, 一般化能力の向上が示唆された。
VCTK-RVAデータセットとオープンソースコードは、https://github.com/vTAD2025-Challenge/vTADで公開されている。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-02-12T12:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。