Fugu-MT 論文翻訳(概要): Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

論文の概要: Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

arxiv url: http://arxiv.org/abs/2603.10725v2
Date: Thu, 12 Mar 2026 15:21:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:25.47862
Title: Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning
Title（参考訳）: ヒューマンインスパイアされた推論によるロバスト音声深度検出に向けて
Authors: Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. Rogov,
Abstract要約: 本稿では,Large Audio Language Models (LALM) の長所とチェーン・オブ・シント推論を組み合わせた新しいSDDフレームワークであるHIR-SDDを提案する。実験により,提案手法の有効性と予測に妥当な正当性を与える能力の両方が示された。
参考スコア（独自算出の注目度）: 4.478040955963153
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The modern generative audio models can be used by an adversary in an unlawful manner, specifically, to impersonate other people to gain access to private information. To mitigate this issue, speech deepfake detection (SDD) methods started to evolve. Unfortunately, current SDD methods generally suffer from the lack of generalization to new audio domains and generators. More than that, they lack interpretability, especially human-like reasoning that would naturally explain the attribution of a given audio to the bona fide or spoof class and provide human-perceptible cues. In this paper, we propose HIR-SDD, a novel SDD framework that combines the strengths of Large Audio Language Models (LALMs) with the chain-of-thought reasoning derived from the novel proposed human-annotated dataset. Experimental evaluation demonstrates both the effectiveness of the proposed method and its ability to provide reasonable justifications for predictions.
Abstract（参考訳）: 現代の生成音声モデルは、敵が不正な方法で、特に他人を偽装して個人情報にアクセスするために使用することができる。この問題を緩和するため、音声深度検出法(SDD)が進化し始めた。残念なことに、現在のSDDメソッドは一般的に、新しいオーディオドメインやジェネレータへの一般化の欠如に悩まされている。さらに、それらは解釈可能性に欠けており、特に人間のような推論は、与えられたオーディオがボナ・フェイドやスプーフ・クラスに自然に寄与し、人間に受け入れられる手がかりを提供することを説明します。本稿では,LALM(Large Audio Language Models)の強みと,新たに提案された人間注釈データセットの連鎖推論を組み合わせた新しいSDDフレームワークであるHIR-SDDを提案する。実験により,提案手法の有効性と予測に妥当な正当性を与える能力の両方が示された。

関連論文リスト

Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。コード、事前トレーニングされたウェイト、デモがリリースされる。
論文参考訳（メタデータ） (2025-10-07T08:14:45Z)
Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching [8.466707742593078]
音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-23T11:15:22Z)
Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-01-07T14:17:47Z)
Investigating Causal Cues: Strengthening Spoofed Audio Detection with Human-Discernible Linguistic Features [0.353122873734926]
模倣、リプレイ攻撃、ディープフェイクなどのスプーフ付きオーディオは、情報の完全性に対する社会的課題を生み出している。近年、研究者は社会言語学の専門家と共同で、spoofed audio sample with Expert Defined Linguistic Features (EDLFs) をラベル付けしている。 EDLFによる音声データの従来の特徴と一般的な特徴を拡張した場合,いくつかのディープフェイク検出アルゴリズムが改良されていることが確認された。
論文参考訳（メタデータ） (2024-09-09T19:47:57Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Defense Against Adversarial Attacks on Audio DeepFake Detection [0.4511923587827302]
Audio DeepFakes (DF) は、ディープラーニングを用いて人工的に生成された発話である。脅威を防ぐために、生成された音声を検出する複数のニューラルネットワークベースの手法が提案されている。
論文参考訳（メタデータ） (2022-12-30T08:41:06Z)
Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。提案手法は,既成話者検証ツールに基づいて実装することができる。そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文参考訳（メタデータ） (2022-09-28T13:46:29Z)
Power of Explanations: Towards automatic debiasing in hate speech detection [19.26084350822197]
ヘイトスピーチ検出は、自然言語処理(NLP)の現実世界における一般的なダウンストリームアプリケーションである。本稿では,潜在的なバイアスを検出するための説明手法を頼りに,自動誤用検知(MiD)を提案する。
論文参考訳（メタデータ） (2022-09-07T14:14:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。