論文の概要: Study of detecting behavioral signatures within DeepFake videos
- arxiv url: http://arxiv.org/abs/2208.03561v1
- Date: Sat, 6 Aug 2022 18:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:20:09.397475
- Title: Study of detecting behavioral signatures within DeepFake videos
- Title(参考訳): DeepFakeビデオにおける行動シグネチャの検出に関する研究
- Authors: Qiaomu Miao, Sinhwa Kang, Stacy Marsella, Steve DiPaola, Chao Wang,
Ari Shapiro
- Abstract要約: 合成ビデオ画像は、自然に捉えられたビデオから肉眼ではすぐに区別できない。
いくつかのディープフェイクビデオは、顔の人形を使って作られています。
本研究は,3症例すべてにおける合成ビデオは,元のソースビデオよりも現実的ではなく,エンゲージメントが低いことを示唆している。
- 参考スコア(独自算出の注目度): 5.423967934407069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is strong interest in the generation of synthetic video imagery of
people talking for various purposes, including entertainment, communication,
training, and advertisement. With the development of deep fake generation
models, synthetic video imagery will soon be visually indistinguishable to the
naked eye from a naturally capture video. In addition, many methods are
continuing to improve to avoid more careful, forensic visual analysis. Some
deep fake videos are produced through the use of facial puppetry, which
directly controls the head and face of the synthetic image through the
movements of the actor, allow the actor to 'puppet' the image of another. In
this paper, we address the question of whether one person's movements can be
distinguished from the original speaker by controlling the visual appearance of
the speaker but transferring the behavior signals from another source. We
conduct a study by comparing synthetic imagery that: 1) originates from a
different person speaking a different utterance, 2) originates from the same
person speaking a different utterance, and 3) originates from a different
person speaking the same utterance. Our study shows that synthetic videos in
all three cases are seen as less real and less engaging than the original
source video. Our results indicate that there could be a behavioral signature
that is detectable from a person's movements that is separate from their visual
appearance, and that this behavioral signature could be used to distinguish a
deep fake from a properly captured video.
- Abstract(参考訳): 娯楽、コミュニケーション、トレーニング、広告など様々な目的のために話している人々の合成ビデオ画像の生成には強い関心がある。
ディープフェイク生成モデルの開発により、合成ビデオ画像は、自然に捉えたビデオから肉眼で見分けがつかないようになる。
さらに、多くの手法は、より慎重で法医学的な視覚的分析を避けるために改善を続けている。
いくつかのディープフェイクビデオは、顔のパペットを使って作られ、俳優の動きを通じて合成画像の頭部と顔を直接制御し、俳優が他の俳優のイメージを「パペット」することができる。
本稿では、話者の視覚的な外観を制御しつつ、行動信号を他の音源から転送することで、ある人の動きが元の話者と区別できるかどうかを問う。
我々は合成画像を比較して研究を行う。
1)異なる発話をする別の人に由来する。
2)同じ人が別の発話をすることに由来する。
3)同じ発話をする別の人に由来する。
本研究は,3症例すべてにおける合成ビデオは,元のソースビデオよりもリアルで,エンゲージメントが低いことを示している。
以上の結果から,視覚的外見から分離した人物の動きから検出可能な行動シグネチャが存在する可能性が示唆され,この行動シグネチャは,撮影された映像と深い偽物とを区別するためにも用いられることが示唆された。
関連論文リスト
- Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting [28.012212656892746]
本稿では,ある人物の表情,頭部ポーズ,身体の動きを,対象映像の他者へ伝達するニューラルレンダリングパイプラインを提案する。
本手法は手話匿名化,手話生成(合成モジュール),および他の全身活動の再現に利用できる。
論文 参考訳(メタデータ) (2022-09-03T18:04:50Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute
Learning [23.14865405847467]
本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として,話し顔を生成する手法を提案する。
本発明の方法は、入力された音声信号と同期した自然な唇の動き、頭部ポーズ、および目の点滅で、対象の顔の写実的な映像を合成する。
実験結果とユーザスタディにより,本手法は,最先端の手法よりも優れた品質で,現実的な音声ビデオを生成することができることが示された。
論文 参考訳(メタデータ) (2021-08-18T02:10:26Z) - ReenactNet: Real-time Full Head Reenactment [50.32988828989691]
本稿では,人間の頭部3Dポーズ,表情,視線をソースからターゲットアクターに完全に転送できるヘッドツーヘッドシステムを提案する。
本システムでは,高忠実度,時間的スムース,写真リアルな合成ビデオが生成され,ヒトの頭部特性を音源からターゲット俳優に忠実に伝達する。
論文 参考訳(メタデータ) (2020-05-22T00:51:38Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。