Fugu-MT 論文翻訳(概要): Audio-visual Deepfake Detection With Local Temporal Inconsistencies

論文の概要: Audio-visual Deepfake Detection With Local Temporal Inconsistencies

arxiv url: http://arxiv.org/abs/2501.08137v1
Date: Tue, 14 Jan 2025 14:15:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.499319
Title: Audio-visual Deepfake Detection With Local Temporal Inconsistencies
Title（参考訳）: 局所的時間的不整合を用いた聴覚・視覚的ディープフェイク検出
Authors: Marcella Astrid, Enjie Ghorbel, Djamila Aouada,
Abstract要約: 本稿では,音声と視覚の微妙な時間的不整合を捉えることを目的とした,音声-視覚的ディープフェイク検出手法を提案する。アーキテクチャの観点からは、時間距離マップと注意機構が組み合わさって、これらの矛盾を捉えるように設計されている。本手法はDFDCおよびFakeAVCelebデータセットを用いた最先端手法に対して評価を行った。
参考スコア（独自算出の注目度）: 11.671275975119089
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes an audio-visual deepfake detection approach that aims to capture fine-grained temporal inconsistencies between audio and visual modalities. To achieve this, both architectural and data synthesis strategies are introduced. From an architectural perspective, a temporal distance map, coupled with an attention mechanism, is designed to capture these inconsistencies while minimizing the impact of irrelevant temporal subsequences. Moreover, we explore novel pseudo-fake generation techniques to synthesize local inconsistencies. Our approach is evaluated against state-of-the-art methods using the DFDC and FakeAVCeleb datasets, demonstrating its effectiveness in detecting audio-visual deepfakes.
Abstract（参考訳）: 本稿では,音声と視覚の微妙な時間的不整合を捉えることを目的とした,音声-視覚的ディープフェイク検出手法を提案する。これを実現するために、アーキテクチャとデータ合成の戦略が導入された。アーキテクチャの観点からは、時間距離マップと注意機構が組み合わさって、これら不整合を捉えつつ、無関係な時間列の影響を最小限に抑えるように設計されている。さらに,局所的な不整合を合成するための新しい擬似フェイク生成手法について検討する。本手法は,DFDCとFakeAVCelebデータセットを用いた最先端手法に対して評価され,オーディオ・ビジュアルディープフェイクの検出の有効性が示された。

関連論文リスト

Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文参考訳（メタデータ） (2025-06-10T06:40:43Z)
Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching [8.466707742593078]
音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-23T11:15:22Z)
DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
DiMoDifはオーディオ・ビジュアル・ディープフェイク検出フレームワークである。音声の機械知覚におけるモダリティ間差異を利用する。時間的にディープフェイクの偽造を特定できる。
論文参考訳（メタデータ） (2024-11-15T13:47:33Z)
Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies [11.671275975119089]
空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。
論文参考訳（メタデータ） (2024-08-13T09:19:59Z)
Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。モデルの識別能力を高めるため,統計的特徴損失を提案する。 DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文参考訳（メタデータ） (2024-07-16T12:15:41Z)
AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文参考訳（メタデータ） (2024-03-20T15:37:19Z)
Histogram Layer Time Delay Neural Networks for Passive Sonar Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文参考訳（メタデータ） (2023-07-25T19:47:26Z)
NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。 NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文参考訳（メタデータ） (2023-06-12T06:06:05Z)
Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文参考訳（メタデータ） (2022-10-11T08:31:30Z)
Delving into Sequential Patches for Deepfake Detection [64.19468088546743]
近年の顔偽造技術は、ほとんど追跡不可能なディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。従来の研究では、ディープフェイク法にまたがる一般化を追求する上で、局所的な低レベルな手がかりと時間的情報の重要性が指摘されてきた。本稿では,局所的・時間的変換をベースとしたDeepfake Detectionフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-06T16:46:30Z)
Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文参考訳（メタデータ） (2021-04-01T07:48:29Z)
Exploiting Attention-based Sequence-to-Sequence Architectures for Sound Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文参考訳（メタデータ） (2021-02-28T07:52:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。