論文の概要: Voice Quality Dimensions as Interpretable Primitives for Speaking Style for Atypical Speech and Affect
- arxiv url: http://arxiv.org/abs/2505.21809v1
- Date: Tue, 27 May 2025 22:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.319492
- Title: Voice Quality Dimensions as Interpretable Primitives for Speaking Style for Atypical Speech and Affect
- Title(参考訳): 非定型音声の話し方と感情に対する解釈可能なプリミティブとしての音声品質次元
- Authors: Jaya Narain, Vasudha Kowtha, Colin Lea, Lauren Tooley, Dianna Yee, Vikramjit Mitra, Zifang Huang, Miquel Espi Marques, Jon Huang, Carlos Avendano, Shirley Ren,
- Abstract要約: 知覚音声品質次元は、非定型音声および他の音声変調の鍵となる特徴を記述する。
7つの音声・音声次元の音声品質モデルを開発し,評価する。
- 参考スコア(独自算出の注目度): 6.284447200986156
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Perceptual voice quality dimensions describe key characteristics of atypical speech and other speech modulations. Here we develop and evaluate voice quality models for seven voice and speech dimensions (intelligibility, imprecise consonants, harsh voice, naturalness, monoloudness, monopitch, and breathiness). Probes were trained on the public Speech Accessibility (SAP) project dataset with 11,184 samples from 434 speakers, using embeddings from frozen pre-trained models as features. We found that our probes had both strong performance and strong generalization across speech elicitation categories in the SAP dataset. We further validated zero-shot performance on additional datasets, encompassing unseen languages and tasks: Italian atypical speech, English atypical speech, and affective speech. The strong zero-shot performance and the interpretability of results across an array of evaluations suggests the utility of using voice quality dimensions in speaking style-related tasks.
- Abstract(参考訳): 知覚音声品質次元は、非定型音声および他の音声変調の鍵となる特徴を記述する。
ここでは,7つの声質モデル(知性,不明瞭な子音,過酷な声,自然さ,モノルード性,モノピッチ性,呼吸性)を開発し,評価する。
プローブは、434人の話者から11,184のサンプルを収集し、凍結した事前学習モデルの埋め込みを特徴として、パブリックな音声アクセシビリティ(SAP)プロジェクトデータセットでトレーニングされた。
調査の結果,SAPデータセットの発声カテゴリーにまたがる高い性能と強い一般化が得られた。
さらに,イタリア語の非定型音声,英語の非定型音声,情緒的音声など,目に見えない言語やタスクを含む追加のデータセット上でのゼロショット性能を検証した。
高いゼロショット性能と一連の評価結果の解釈可能性から,発話スタイル関連タスクにおける音声品質次元の利用の有用性が示唆された。
関連論文リスト
- Affect Models Have Weak Generalizability to Atypical Speech [6.392336908224424]
非定型音声のデータセットにおける音声からのカテゴリー的・次元的影響を認識するためのモデルを評価する。
その結果,影響モデルの出力は音声の非定型性の存在や程度に大きく影響していることがわかった。
論文 参考訳(メタデータ) (2025-04-22T21:40:17Z) - QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions [45.34333059156364]
包括的低レベル音声品質評価データセットであるQuariSpeechを紹介する。
また,聴覚大言語モデルの低レベル音声理解能力を評価するために,QuariSpeech Benchmarkを提案する。
論文 参考訳(メタデータ) (2025-03-26T07:32:20Z) - Classification of Spontaneous and Scripted Speech for Multilingual Audio [9.925703861731506]
発話スタイルが音声処理研究にどのように影響するかをよりよく理解するためには,自発音声からスクリプトを識別することが不可欠である。
本稿では,様々な形式や言語にまたがってよく一般化された分類器を構築することの課題に対処する。
従来型,手作り音響,韻律的特徴から高度なオーディオトランスフォーマーまで,様々なモデルを体系的に評価する。
論文 参考訳(メタデータ) (2024-12-16T15:45:10Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - Prediction of Listener Perception of Argumentative Speech in a
Crowdsourced Data Using (Psycho-)Linguistic and Fluency Features [24.14001104126045]
議論的発話のクラウドソースデータセットにおいてTEDトークスタイルの感情評価を予測することを目的としている。
本稿では,TEDトーク音声の大規模データセット上で事前学習したモデルを微調整することにより,これらのカテゴリを予測するための分類タスクに有効なアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-13T15:07:13Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。