論文の概要: Forensic deepfake audio detection using segmental speech features
- arxiv url: http://arxiv.org/abs/2505.13847v1
- Date: Tue, 20 May 2025 02:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.63626
- Title: Forensic deepfake audio detection using segmental speech features
- Title(参考訳): セグメント音声特徴を用いた法医学的ディープフェイク音声検出
- Authors: Tianle Yang, Chengzhe Sun, Siwei Lyu, Phil Rose,
- Abstract要約: 本研究では,ディープフェイク音声の検出にセグメント音声の音響的特徴を用いることの可能性を検討する。
以上の結果から,法医学的音声比較においてよく用いられる部分的特徴がディープフェイクの同定に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 27.29588853432526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explores the potential of using acoustic features of segmental speech sounds to detect deepfake audio. These features are highly interpretable because of their close relationship with human articulatory processes and are expected to be more difficult for deepfake models to replicate. The results demonstrate that certain segmental features commonly used in forensic voice comparison are effective in identifying deep-fakes, whereas some global features provide little value. These findings underscore the need to approach audio deepfake detection differently for forensic voice comparison and offer a new perspective on leveraging segmental features for this purpose.
- Abstract(参考訳): 本研究では,ディープフェイク音声の検出にセグメント音声の音響的特徴を用いることの可能性を検討する。
これらの特徴は人間の調音過程と密接な関係にあるため高い解釈が可能であり、ディープフェイクモデルでは複製が困難であることが期待されている。
以上の結果から,法医学的音声比較でよく用いられる部分的特徴はディープフェイクの同定に有効であるが,大域的特徴には価値が低いことが示唆された。
これらの知見は、法医学的な音声比較のために、音声ディープフェイク検出に異なるアプローチをとる必要性を強調し、この目的のためにセグメント的特徴を活用するための新しい視点を提供する。
関連論文リスト
- Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching [8.466707742593078]
音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。
音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。
本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-23T11:15:22Z) - Pitch Imperfect: Detecting Audio Deepfakes Through Acoustic Prosodic Analysis [6.858439600092057]
音声のディープフェイクを検出するための基礎的な手段として,韻律(Prosody)や高レベルの言語的特徴を探求する。
我々は6つの古典的韻律的特徴に基づく検出器を開発し、我々のモデルが他のベースラインモデルと同様に機能することを実証する。
モデル決定に最も影響を与える韻律的特徴を説明することができることを示す。
論文 参考訳(メタデータ) (2025-02-20T16:52:55Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Respiratory Sound Classification Using Long-Short Term Memory [62.997667081978825]
本稿では,呼吸器疾患の分類に関連して,音の分類を行おうとする際の問題点について検討する。
このようなタスクをどのように実装できるかを特定するために、ディープラーニングと長期短期記憶ネットワークの使用の検討を行う。
論文 参考訳(メタデータ) (2020-08-06T23:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。