論文の概要: Phoneme-Level Deepfake Detection Across Emotional Conditions Using Self-Supervised Embeddings
- arxiv url: http://arxiv.org/abs/2605.03079v1
- Date: Mon, 04 May 2026 18:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.611494
- Title: Phoneme-Level Deepfake Detection Across Emotional Conditions Using Self-Supervised Embeddings
- Title(参考訳): 自己監督型埋め込みを用いた感情状態における音素レベルディープフェイク検出
- Authors: Vamshi Nallaguntla, Shruti Kshirsagar, Anderson R. Avila,
- Abstract要約: 感情的に操作された合成音声を分析するための音素レベルフレームワークを提案する。
以上の結果から, 音素の挙動は, 複雑な母音や摩擦音など, カテゴリーによって異なっており, 高い発声度を示すことが示唆された。
より大きな分布差を持つ音素は、複数の感情や合成システムを通して、より容易に検出できる。
- 参考スコア(独自算出の注目度): 2.000890150701116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in emotional voice conversion (EVC) have enabled the generation of expressive synthetic speech, raising new concerns in audio deepfake detection. Existing approaches treat speech as a homogeneous signal and largely overlook its internal phonetic structure, limiting their interpretability in emotionally conditioned settings. In this work, we propose a phoneme-level framework to analyze emotionally manipulated synthetic speech using real and EVC-generated speech under matched emotional conditions with shared transcripts, phoneme-aligned TextGrids, and WavLM-based embeddings. Our results show that phoneme behavior varies across categories, with complex vowels and fricatives exhibiting higher divergence while simpler phonemes remain more stable. Phonemes with larger distributional differences are also found to be more easily detected, consistently across multiple emotions and synthesis systems. These findings demonstrate that phoneme-level analysis is an effective and interpretable approach for detecting emotionally manipulated synthetic speech.
- Abstract(参考訳): 近年の感情音声変換(EVC)の進歩により、表現型合成音声の生成が可能となり、音声ディープフェイク検出における新たな関心が高まっている。
既存のアプローチは、音声を同質な信号として扱い、その内部の音声構造を概ね見落とし、感情的に条件付けられた環境での解釈可能性を制限する。
そこで本研究では,感情条件の一致した感情条件下での感情操作音声を,音素対応のTextGrid,WavLMベースの埋め込みを用いて分析するための音素レベルフレームワークを提案する。
以上の結果から, 音素の振舞いは, 音素の振舞いが多種多様であり, 複雑な母音や摩擦音は高い発声度を示す一方で, より単純な音素の振舞いはより安定であることがわかった。
より大きな分布差を持つ音素は、複数の感情や合成システムを通して、より容易に検出できる。
これらの結果から,音素レベル分析は感情的に操作された合成音声の検出に有効かつ解釈可能な手法であることが示唆された。
関連論文リスト
- On the Emotion Understanding of Synthesized Speech [63.13411068766772]
感情は音声対話における中核的なパラ言語的特徴である。
現在の音声感情認識(SER)モデルは、合成音声に一般化できない。
生成音声言語モデル(SLM)は、パラ言語的手がかりを無視しながら、テキスト意味論から感情を推測する傾向がある。
論文 参考訳(メタデータ) (2026-03-17T13:11:14Z) - ES4R: Speech Encoding Based on Prepositive Affective Modeling for Empathetic Response Generation [30.006550552714938]
共感的音声対話は、言語内容だけでなく、豊富なパラ言語情報も理解する必要がある。
既存の音声から音声への大きな言語モデルは、ASRの転写に依存するか、エンコーダを使用して潜在表現を抽出する。
音声に基づく共感応答生成のためのフレームワークである textbfES4R を提案する。
論文 参考訳(メタデータ) (2026-01-16T10:26:50Z) - Detecting Mental Manipulation in Speech via Synthetic Multi-Speaker Dialogue [12.181747090385612]
心的操作は、他者に影響を与えるか、搾取するために、言語を戦略的に利用することである。
音声対話における心的操作検出に関する最初の研究について述べる。
少数ショットの大きな音声言語モデルと人間のアノテーションを用いて、モーダリティが検出精度と知覚にどのように影響するかを評価する。
論文 参考訳(メタデータ) (2026-01-13T09:02:08Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Making Social Platforms Accessible: Emotion-Aware Speech Generation with Integrated Text Analysis [3.8251125989631674]
本稿では,エンドツーエンドの文脈認識型テキスト音声合成システムを提案する。
テキスト入力から伝達された感情を導き出し、自然な、表現力のある音声に対する感情と話者の特徴に焦点を当てた音声を合成する。
本システムでは,最先端のTSモデルと比較した場合の競合予測時間性能を示す。
論文 参考訳(メタデータ) (2024-10-24T23:18:02Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - Empirical Interpretation of the Relationship Between Speech Acoustic
Context and Emotion Recognition [28.114873457383354]
音声感情認識(SER)は、感情的な知性を得、発話の文脈的意味を理解するために不可欠である。
実際に、音声の感情は、所定の時間の間、音響セグメント上で単一のラベルとして扱われる。
本研究は,SERにおける音声コンテキストと音声境界が局所的マーカーに与える影響について,注意に基づくアプローチを用いて検討する。
論文 参考訳(メタデータ) (2023-06-30T09:21:48Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。