Fugu-MT 論文翻訳(概要): Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis

論文の概要: Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis

arxiv url: http://arxiv.org/abs/2604.12650v1
Date: Tue, 14 Apr 2026 12:20:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.434068
Title: Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis
Title（参考訳）: ディープフェイクの聴取:対話型フォージェリ分析に先立つ新しい視点
Authors: Miao Liu, Fangda Wei, Jing Wang, Xinyuan Qian,
Abstract要約: 聴取深度検出(LDD)の課題について述べる。我々は,聴取者の映像の微妙な動きの不整合を捉えた動き認識・音声誘導ネットワークMANetを提案する。我々の研究は、従来の話し中心のパラダイムを超えてディープフェイク検出を再考する必要性を強調している。
参考スコア（独自算出の注目度）: 12.060274776566223
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing deepfake detection research has primarily focused on scenarios where the manipulated subject is actively speaking, i.e., generating fabricated content by altering the speaker's appearance or voice. However, in realistic interaction settings, attackers often alternate between falsifying speaking and listening states to mislead their targets, thereby enhancing the realism and persuasiveness of the scenario. Although the detection of 'listening deepfakes' remains largely unexplored and is hindered by a scarcity of both datasets and methodologies, the relatively limited quality of synthesized listening reactions presents an excellent breakthrough opportunity for current deepfake detection efforts. In this paper, we present the task of Listening Deepfake Detection (LDD). We introduce ListenForge, the first dataset specifically designed for this task, constructed using five Listening Head Generation (LHG) methods. To address the distinctive characteristics of listening forgeries, we propose MANet, a Motion-aware and Audio-guided Network that captures subtle motion inconsistencies in listener videos while leveraging speaker's audio semantics to guide cross-modal fusion. Extensive experiments demonstrate that existing Speaking Deepfake Detection (SDD) models perform poorly in listening scenarios. In contrast, MANet achieves significantly superior performance on ListenForge. Our work highlights the necessity of rethinking deepfake detection beyond the traditional speaking-centric paradigm and opens new directions for multimodal forgery analysis in interactive communication settings. The dataset and code are available at https://anonymous.4open.science/r/LDD-B4CB.
Abstract（参考訳）: 既存のディープフェイク検出研究は、主に、操作対象が積極的に話し合っているシナリオ、すなわち、話者の外観や声を変えることによって作られたコンテンツを生成するシナリオに焦点を当てている。しかし、現実的な相互作用では、攻撃者は発話状態と聴取状態を交互に切り替えてターゲットを誤解させ、シナリオのリアリズムと説得力を高める。聴取深度」の検出はほとんど探索されておらず、データセットと方法論の不足によって妨げられているが、合成された聴取反応の比較的限られた品質は、現在のディープフェイク検出努力にとって素晴らしいブレークスルーの機会である。本稿では,LDD(リスニングディープフェイク検出)の課題について述べる。このタスク用に設計された最初のデータセットであるListenForgeを導入し、5つのリスニングヘッド生成(LHG)手法を用いて構築する。聴取フォージェリーの特徴的な特徴に対処するため,聴取者の映像における微妙な動きの不整合を捉えつつ,話者の音声セマンティクスを活用してモーダル融合を誘導する動き認識型音声誘導ネットワークMANetを提案する。大規模な実験により、既存のSinging Deepfake Detection (SDD) モデルはリスニングのシナリオでは不十分であることが示された。対照的に、MANetはListenForgeでかなり優れたパフォーマンスを実現している。本研究は,従来の発話中心のパラダイムを超えてディープフェイク検出を再考することの必要性を強調し,対話型通信環境におけるマルチモーダルフォージェリ分析のための新たな方向性を開放する。データセットとコードはhttps://anonymous.4open.science/r/LDD-B4CBで公開されている。

関連論文リスト

Leave No Stone Unturned: Uncovering Holistic Audio-Visual Intrinsic Coherence for Deepfake Detection [27.756028843178708]
生成AIは、個人のセキュリティと社会的信頼に対する脅威を強化する、超現実的なオーディオ視覚的ディープフェイクを可能にした。既存のディープフェイク検出器の多くは、ユニモーダルなアーティファクトやオーディオと視覚の相違に依存しており、両方の情報源を共同で活用することができない。我々は、頑健で一般化可能な検出は、本質的な音声-視覚的コヒーレンスをモダリティ内および全範囲に根ざすべきであると論じている。我々は,現在最先端の商用発電機からのテキスト・ツー・ビデオ・フォージェリーと画像・ビデオ・フォージェリーを併用した高忠実なオーディオ・ビジュアル・ディープフェイク・データセットであるHiFi-AVDFを紹介する。
論文参考訳（メタデータ） (2026-03-25T05:44:25Z)
Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study [6.567506441691872]
実話と完全合成された2話者会話を含む2,830の音声クリップからなるマルチ話者対話型オーディオディープフェイクスデータセット(MsCADD)を新たに導入する。このデータセットでは、LFCC-LCNN、RawNet2、Wav2Vec 2.0の3つのニューラルネットワークベースラインモデルをベンチマークし、F1スコア、正確性、真正レート(TPR)、真負レート(TNR)の観点から性能を報告する。以上の結果から,これらのベースラインモデルが有用なベンチマークとなったが,合成音声を確実に検出する上で,マルチスピーカーディープフェイク研究において大きなギャップがあることが示唆された。
論文参考訳（メタデータ） (2026-01-30T20:38:10Z)
Layover or Direct Flight: Rethinking Audio-Guided Image Segmentation [65.7990140284317]
対象の接地、すなわち、人間の言葉による指示に基づく視覚的シーンへの関心対象の定位に焦点を当てる。この可能性を探るため、単一単語音声命令の接地に着目してタスクを簡素化する。以上の結果から,音声からの直接的接地は実現可能であるだけでなく,場合によっては書き起こしに基づく手法よりも優れていることが示唆された。
論文参考訳（メタデータ） (2025-11-27T02:00:28Z)
SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。このようにして、セマンティックな内容が検出器に露出されることはない。
論文参考訳（メタデータ） (2024-09-14T02:45:09Z)
Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-02T18:45:01Z)
What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文参考訳（メタデータ） (2023-12-15T09:52:17Z)
NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。 NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文参考訳（メタデータ） (2023-06-12T06:06:05Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。未探索の音声-顔のマッチングビューからディープフェイク検出を行う。我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文参考訳（メタデータ） (2022-03-04T09:08:50Z)
Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文参考訳（メタデータ） (2021-02-02T05:59:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。