Fugu-MT 論文翻訳(概要): Forensic deepfake audio detection using segmental speech features

論文の概要: Forensic deepfake audio detection using segmental speech features

arxiv url: http://arxiv.org/abs/2505.13847v2
Date: Mon, 02 Jun 2025 02:02:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:43.404283
Title: Forensic deepfake audio detection using segmental speech features
Title（参考訳）: セグメント音声特徴を用いた法医学的ディープフェイク音声検出
Authors: Tianle Yang, Chengzhe Sun, Siwei Lyu, Phil Rose,
Abstract要約: 本研究では,ディープフェイク音声の検出にセグメント音声の音響的特徴を用いることの可能性を検討する。法医学的音声比較(FVC)で一般的に用いられる部分的特徴はディープフェイクを特定するのに有効であるが、いくつかのグローバル特徴はほとんど価値がない。
参考スコア（独自算出の注目度）: 27.29588853432526
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study explores the potential of using acoustic features of segmental speech sounds to detect deepfake audio. These features are highly interpretable because of their close relationship with human articulatory processes and are expected to be more difficult for deepfake models to replicate. The results demonstrate that certain segmental features commonly used in forensic voice comparison (FVC) are effective in identifying deep-fakes, whereas some global features provide little value. These findings underscore the need to approach audio deepfake detection using methods that are distinct from those employed in traditional FVC, and offer a new perspective on leveraging segmental features for this purpose.
Abstract（参考訳）: 本研究では,ディープフェイク音声の検出にセグメント音声の音響的特徴を用いることの可能性を検討する。これらの特徴は人間の調音過程と密接な関係にあるため高い解釈が可能であり、ディープフェイクモデルでは複製が困難であることが期待されている。以上の結果から,法医学的音声比較 (FVC) でよく用いられる部分的特徴はディープフェイクの同定に有効であることが示唆された。これらの知見は,従来のFVCと異なる手法を用いたディープフェイク検出のアプローチの必要性を浮き彫りにし,この目的のためにセグメント的特徴を活用するための新たな視点を提供する。

関連論文リスト

LENS-DF: Deepfake Detection and Temporal Localization for Long-Form Noisy Speech [35.36044093564255]
LENS-DFは、オーディオディープフェイクの検出と時間的局在のトレーニングと評価のための、新しく包括的なレシピである。自己教師型学習フロントエンドと単純なバックエンドに基づいて実験を行う。その結果、LENS-DFで生成されたデータを用いてトレーニングしたモデルは、従来のレシピでトレーニングしたモデルよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-07-22T04:31:13Z)
Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching [8.466707742593078]
音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-23T11:15:22Z)
Pitch Imperfect: Detecting Audio Deepfakes Through Acoustic Prosodic Analysis [6.858439600092057]
音声のディープフェイクを検出するための基礎的な手段として,韻律(Prosody)や高レベルの言語的特徴を探求する。我々は6つの古典的韻律的特徴に基づく検出器を開発し、我々のモデルが他のベースラインモデルと同様に機能することを実証する。モデル決定に最も影響を与える韻律的特徴を説明することができることを示す。
論文参考訳（メタデータ） (2025-02-20T16:52:55Z)
Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies [11.671275975119089]
空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。
論文参考訳（メタデータ） (2024-08-13T09:19:59Z)
Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。モデルの識別能力を高めるため,統計的特徴損失を提案する。 DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文参考訳（メタデータ） (2024-07-16T12:15:41Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文参考訳（メタデータ） (2023-12-15T09:52:17Z)
MIS-AVoiDD: Modality Invariant and Specific Representation for Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文参考訳（メタデータ） (2023-10-03T17:43:24Z)
Combining Automatic Speaker Verification and Prosody Analysis for Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文参考訳（メタデータ） (2022-10-31T11:03:03Z)
Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文参考訳（メタデータ） (2022-04-01T14:25:19Z)
Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。未探索の音声-顔のマッチングビューからディープフェイク検出を行う。我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文参考訳（メタデータ） (2022-03-04T09:08:50Z)
Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文参考訳（メタデータ） (2021-10-27T08:51:42Z)
Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。フェースフォージェリ検出に高周波雑音を用いることを提案する。 1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。 2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文参考訳（メタデータ） (2021-03-23T08:19:21Z)
An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文参考訳（メタデータ） (2020-08-21T17:24:09Z)
Respiratory Sound Classification Using Long-Short Term Memory [62.997667081978825]
本稿では,呼吸器疾患の分類に関連して,音の分類を行おうとする際の問題点について検討する。このようなタスクをどのように実装できるかを特定するために、ディープラーニングと長期短期記憶ネットワークの使用の検討を行う。
論文参考訳（メタデータ） (2020-08-06T23:11:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。