論文の概要: Not made for each other- Audio-Visual Dissonance-based Deepfake
Detection and Localization
- arxiv url: http://arxiv.org/abs/2005.14405v3
- Date: Sat, 20 Mar 2021 15:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 23:48:09.054654
- Title: Not made for each other- Audio-Visual Dissonance-based Deepfake
Detection and Localization
- Title(参考訳): 音声-視覚不協和音に基づくディープフェイク検出と局所化
- Authors: Komal Chugh, Parul Gupta, Abhinav Dhall and Ramanathan Subramanian
- Abstract要約: 本稿では,MDS(Modality Dissonance Score)と呼ばれる音声と視覚の相違に基づくディープフェイクビデオの検出を提案する。
MDSは、ビデオ内の音声と視覚セグメント間の相似性のスコアの集合として計算される。
われわれの手法は最先端の技術を7%も上回っている。
- 参考スコア(独自算出の注目度): 7.436429318051601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose detection of deepfake videos based on the dissimilarity between
the audio and visual modalities, termed as the Modality Dissonance Score (MDS).
We hypothesize that manipulation of either modality will lead to dis-harmony
between the two modalities, eg, loss of lip-sync, unnatural facial and lip
movements, etc. MDS is computed as an aggregate of dissimilarity scores between
audio and visual segments in a video. Discriminative features are learnt for
the audio and visual channels in a chunk-wise manner, employing the
cross-entropy loss for individual modalities, and a contrastive loss that
models inter-modality similarity. Extensive experiments on the DFDC and
DeepFake-TIMIT Datasets show that our approach outperforms the state-of-the-art
by up to 7%. We also demonstrate temporal forgery localization, and show how
our technique identifies the manipulated video segments.
- Abstract(参考訳): 本稿では,MDS(Modality Dissonance Score)と呼ばれる音声と視覚の相違に基づくディープフェイクビデオの検出を提案する。
いずれのモダリティの操作も,2つのモダリティ,例えばリップシンクの喪失,不自然な顔運動,唇運動などの不調和につながると仮定する。
mdsはビデオ内の音声セグメントと視覚セグメントの相違点の集計として計算される。
識別機能は、個々のモダリティに対するクロスエントロピー損失と、モダリティ間の類似性をモデル化するコントラスト損失を用いて、音声および視覚チャネルに対してチャンク的に学習される。
DFDCとDeepFake-TIMITデータセットの大規模な実験により、我々のアプローチは最先端技術よりも最大7%優れていた。
また,時間的フォージェリローカライゼーションを実証し,操作したビデオセグメントの識別方法を示した。
関連論文リスト
- A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。