論文の概要: Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion
- arxiv url: http://arxiv.org/abs/2112.10936v1
- Date: Tue, 21 Dec 2021 01:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 13:24:54.292312
- Title: Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion
- Title(参考訳): その言葉を見てみよう: 単語条件付き顔の動きによるビデオ改ざん検出
- Authors: Shruti Agarwal, Liwen Hu, Evonne Ng, Trevor Darrell, Hao Li, Anna
Rohrbach
- Abstract要約: 本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
- 参考スコア(独自算出の注目度): 82.06128362686445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's era of digital misinformation, we are increasingly faced with new
threats posed by video falsification techniques. Such falsifications range from
cheapfakes (e.g., lookalikes or audio dubbing) to deepfakes (e.g.,
sophisticated AI media synthesis methods), which are becoming perceptually
indistinguishable from real videos. To tackle this challenge, we propose a
multi-modal semantic forensic approach to discover clues that go beyond
detecting discrepancies in visual quality, thereby handling both simpler
cheapfakes and visually persuasive deepfakes. In this work, our goal is to
verify that the purported person seen in the video is indeed themselves by
detecting anomalous correspondences between their facial movements and the
words they are saying. We leverage the idea of attribution to learn
person-specific biometric patterns that distinguish a given speaker from
others. We use interpretable Action Units (AUs) to capture a persons' face and
head movement as opposed to deep CNN visual features, and we are the first to
use word-conditioned facial motion analysis. Unlike existing person-specific
approaches, our method is also effective against attacks that focus on lip
manipulation. We further demonstrate our method's effectiveness on a range of
fakes not seen in training including those without video manipulation, that
were not addressed in prior work.
- Abstract(参考訳): 今日のデジタル誤報の時代では、ビデオのファルシフィケーション技術による新たな脅威に直面している。
このような偽装は、安価なフェイク(例えば、見た目や音声のダビング)からディープフェイク(例えば、高度なaiメディア合成法)まで様々で、実際のビデオとは知覚的に区別できないものになっている。
そこで本研究では,視覚品質のばらつきを検知するだけでなく,より安価で視覚的に説得力のあるディープフェイクを扱う手がかりを見つけるためのマルチモーダルセマンティクス・インフォメーション手法を提案する。
本研究の目的は,映像に写っている人物が,顔の動きと話し言葉の異常な対応を検知することで,本人であることを確かめることである。
我々は、帰属という概念を利用して、ある話者と他の話者を区別する個人固有のバイオメトリックパターンを学習する。
我々は,人物の顔と頭部の動きを,深いCNNの視覚的特徴とは対照的に捉えるために,解釈可能なアクションユニット(AUs)を用い,初めて単語条件の顔の動き分析を行った。
既存の人固有のアプローチとは異なり,本手法は唇操作に焦点を当てた攻撃にも有効である。
さらに,本手法の有効性を,事前の作業では対処されなかった映像操作のないものを含む,トレーニングで見られない様々な偽物に対して示す。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Leveraging Real Talking Faces via Self-Supervision for Robust Forgery
Detection [112.96004727646115]
本研究では,実話を用いた顔操作映像の検出手法を開発した。
本手法は, クロスマニピュレーションの一般化とロバストネス実験における最先端性能を実現する。
以上の結果から、より堅牢な顔偽造検知器の開発には、自然ビデオと未表示ビデオの活用が有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2022-01-18T17:14:54Z) - Detecting Deepfake Videos Using Euler Video Magnification [1.8506048493564673]
Deepfakeのビデオは、高度な機械学習技術を使ってビデオを操作している。
本稿では,ディープフェイク映像の識別技術について検討する。
提案手法では,Euler手法から抽出した特徴を用いて,偽造映像と未修正映像を分類する3つのモデルを訓練する。
論文 参考訳(メタデータ) (2021-01-27T17:37:23Z) - Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery
Detection [118.37239586697139]
LipForensicsは、操作の一般化と様々な歪みに耐えられる検出アプローチである。
視覚的音声認識(リリーディング)を行うために、初めて時間ネットワークを事前訓練する。
その後、リアルタイムおよび偽造データの固定された口埋め込みに時間的ネットワークを微調整し、低レベルな操作固有のアーティファクトに過度に適合することなく、口の動きに基づいて偽のビデオを検出する。
論文 参考訳(メタデータ) (2020-12-14T15:53:56Z) - How Do the Hearts of Deep Fakes Beat? Deep Fake Source Detection via
Interpreting Residuals with Biological Signals [9.918684475252636]
本研究では, 真偽を分離するだけでなく, 真偽の背後にある特定の生成モデルを発見するアプローチを提案する。
提案手法は,97.29%の精度で偽動画を検出でき,93.39%の精度でソースモデルを検出できることを示す。
論文 参考訳(メタデータ) (2020-08-26T03:35:47Z) - Detecting Deep-Fake Videos from Appearance and Behavior [0.0]
本稿では,顔洗脳深部偽物検出のためのバイオメトリックスに基づく法医学的手法について述べる。
複数の大規模ビデオデータセットにまたがって,このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-04-29T21:38:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。