論文の概要: Affect Models Have Weak Generalizability to Atypical Speech
- arxiv url: http://arxiv.org/abs/2504.16283v1
- Date: Tue, 22 Apr 2025 21:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.94174
- Title: Affect Models Have Weak Generalizability to Atypical Speech
- Title(参考訳): 非定型音声に対する弱一般化性を持つ影響モデル
- Authors: Jaya Narain, Amrit Romana, Vikramjit Mitra, Colin Lea, Shirley Ren,
- Abstract要約: 非定型音声のデータセットにおける音声からのカテゴリー的・次元的影響を認識するためのモデルを評価する。
その結果,影響モデルの出力は音声の非定型性の存在や程度に大きく影響していることがわかった。
- 参考スコア(独自算出の注目度): 6.392336908224424
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech and voice conditions can alter the acoustic properties of speech, which could impact the performance of paralinguistic models for affect for people with atypical speech. We evaluate publicly available models for recognizing categorical and dimensional affect from speech on a dataset of atypical speech, comparing results to datasets of typical speech. We investigate three dimensions of speech atypicality: intelligibility, which is related to pronounciation; monopitch, which is related to prosody, and harshness, which is related to voice quality. We look at (1) distributional trends of categorical affect predictions within the dataset, (2) distributional comparisons of categorical affect predictions to similar datasets of typical speech, and (3) correlation strengths between text and speech predictions for spontaneous speech for valence and arousal. We find that the output of affect models is significantly impacted by the presence and degree of speech atypicalities. For instance, the percentage of speech predicted as sad is significantly higher for all types and grades of atypical speech when compared to similar typical speech datasets. In a preliminary investigation on improving robustness for atypical speech, we find that fine-tuning models on pseudo-labeled atypical speech data improves performance on atypical speech without impacting performance on typical speech. Our results emphasize the need for broader training and evaluation datasets for speech emotion models, and for modeling approaches that are robust to voice and speech differences.
- Abstract(参考訳): 音声と音声の条件は、音声の音響特性を変化させることができ、これは非典型的話者に影響を及ぼすパラ言語モデルの性能に影響を及ぼす可能性がある。
我々は,非定型音声のデータセットにおける音声からのカテゴリー的および次元的影響を認識するための公開モデルの評価を行い,その結果を典型的な音声のデータセットと比較した。
発話の非定型性の3つの側面について検討する: 発音に関連する知性, 韻律に関連するモノピッチ, 声質に関連する強靭性。
本研究では,(1)分類的影響予測の分布傾向,(2)分類的影響予測の分布比較,(3)有声・覚醒の自然発話におけるテキストと音声の相関強度について考察する。
その結果,影響モデルの出力は音声の非定型性の存在や程度に大きく影響していることがわかった。
例えば、悲しいと予測される音声の割合は、類似の典型的な音声データセットと比較して、非定型音声のすべてのタイプやグレードに対して著しく高い。
非定型音声の頑健性向上に関する予備的な調査では、擬似ラベル付き非定型音声データの微調整モデルにより、典型音声の性能に影響を与えずに、非定型音声の性能を向上させることが判明した。
本研究は,音声の感情モデルと,音声と音声の相違に頑健なモデルのための,より広範なトレーニングと評価データセットの必要性を強調した。
関連論文リスト
- Modeling speech emotion with label variance and analyzing performance across speakers and unseen acoustic conditions [4.507408840040573]
本研究では,感情グレードの確率密度関数を目標として,ベンチマーク評価セットの性能向上を実証する。
本研究では,現在最先端の音声感情モデルを訓練する上で,FM(Salliency driven foundation model)の表現選択が有効であることを示す。
複数のテストセットにまたがる性能評価と、性別や話者による性能分析は、感情モデルの有用性を評価するのに有用であることを示す。
論文 参考訳(メタデータ) (2025-03-24T06:13:27Z) - Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities [9.473861847584843]
本稿では,MMS(Massively Multilingual Speech)とWhisper(Whisper)という,最先端の音声認識モデルについて述べる。
インドネシア語音声データを様々な変動群で書き起こすモデルの予測能力について検討する。
論文 参考訳(メタデータ) (2024-10-11T14:07:07Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Interpreting Pretrained Speech Models for Automatic Speech Assessment of Voice Disorders [0.8796261172196743]
我々は、音声障害検出の文脈において、オーディオスペクトログラム変換器の2つの構成を訓練し比較する。
本研究では,モデルが予測を行うときのスペクトル領域の計算的関連性であるモデル関連性マップを作成するために,アテンションロールアウト手法を適用した。
我々はこれらのマップを用いて、モデルが異なる条件下でどのように予測を行うかを分析し、モデルが微調整されるにつれて注意の拡散が減少することを示す。
論文 参考訳(メタデータ) (2024-06-29T21:14:48Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - LLMs and Finetuning: Benchmarking cross-domain performance for hate speech detection [10.014248704653]
本研究では,ヘイトスピーチの同定における事前学習および微調整型大言語モデル(LLM)の有効性と適応性について検討した。
LLMは、事前トレーニングなしでも最先端技術に対して大きな優位性を提供します。
我々は、ヘイトスピーチ検出の未来をビジョンとして、ドメイン間の一般化可能性と適切なベンチマークプラクティスを強調した。
論文 参考訳(メタデータ) (2023-10-29T10:07:32Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Predicting non-native speech perception using the Perceptual
Assimilation Model and state-of-the-art acoustic models [9.858745856649998]
61母音に対するフランス語および英語話者の音声知覚行動の新しいオープンデータセットを提案する。
音素同化は, 識別行動全体において, きめ細かい音素モデルよりも優れた予測因子であることを示す。
また、wav2vec 2.0は、ネイティブ言語が音声知覚に与える影響を捉えるのが得意ではないが、ネイティブ音素同化に関する情報と相補的であることも示している。
論文 参考訳(メタデータ) (2022-05-31T14:25:59Z) - Statistical Analysis of Perspective Scores on Hate Speech Detection [7.447951461558536]
最先端のヘイトスピーチ分類器は、トレーニングデータと同じ特徴分布を持つデータ上でテストする場合のみ効率的である。
このような低レベルの特徴に依存する多様なデータ分布は、データの自然なバイアスによる欠如の主な原因である。
異なるヘイトスピーチデータセットは、パースペクティブスコアを抽出するという点では、非常によく似ている。
論文 参考訳(メタデータ) (2021-06-22T17:17:35Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。