論文の概要: Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head
Videos
- arxiv url: http://arxiv.org/abs/2305.03713v2
- Date: Tue, 12 Sep 2023 09:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 17:09:41.202796
- Title: Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head
Videos
- Title(参考訳): アバターフィンガープリントによる音声合成ビデオの利用
- Authors: Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio
Gallo
- Abstract要約: これをアバターフィンガープリントと呼ぶ。
我々は、一つのアイデンティティの動作シグネチャがグループ化され、他のアイデンティティのシグネチャから遠ざかる埋め込みを学習する。
これにより、顔の外観に関係なく、合成ビデオとビデオ内の表情を駆動するアイデンティティをリンクすることができる。
- 参考スコア(独自算出の注目度): 17.9357643775008
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern generators render talking-head videos with impressive photorealism,
ushering in new user experiences such as videoconferencing under constrained
bandwidth budgets. Their safe adoption, however, requires a mechanism to verify
if the rendered video is trustworthy. For instance, for videoconferencing we
must identify cases in which a synthetic video portrait uses the appearance of
an individual without their consent. We term this task avatar fingerprinting.
Specifically, we learn an embedding in which the motion signatures of one
identity are grouped together, and pushed away from those of the other
identities. This allows us to link the synthetic video to the identity driving
the expressions in the video, regardless of the facial appearance shown. Avatar
fingerprinting algorithms will be critical as talking head generators become
more ubiquitous, and yet no large scale datasets exist for this new task.
Therefore, we contribute a large dataset of people delivering scripted and
improvised short monologues, accompanied by synthetic videos in which we render
videos of one person using the facial appearance of another. Project page:
https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
- Abstract(参考訳): 現代のジェネレータは、ビデオ会議のような新しいユーザー体験を制約付き帯域幅予算で利用し、印象的なフォトリアリズムでトーキングヘッドビデオをレンダリングする。
しかし、彼らの安全な採用には、レンダリングされたビデオが信頼できるかどうかを検証するメカニズムが必要である。
例えば、ビデオ会議では、合成ビデオのポートレートが、同意なしに個人の外観を使用するケースを識別しなければならない。
これをアバターフィンガープリントと呼ぶ。
具体的には、一つのアイデンティティの動作シグネチャがグループ化され、他のアイデンティティのシグネチャから切り離された埋め込みを学習する。
これにより、顔の外観に関わらず、合成ビデオと動画内の表現を駆動するアイデンティティをリンクすることができる。
アバターの指紋認証アルゴリズムは、対話ヘッドジェネレータがよりユビキタスになるにつれて重要になるが、この新しいタスクには大規模なデータセットは存在しない。
そこで,本研究では,台本や即興の短いモノローグを制作する人たちの膨大なデータセットと,他者の顔の表情を用いて映像をレンダリングする合成動画をコントリビュートした。
プロジェクトページ: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/
関連論文リスト
- ReliTalk: Relightable Talking Portrait Generation from a Single Video [62.47116237654984]
ReliTalkは、モノクロビデオから再生可能なオーディオ駆動型音声ポートレート生成のための新しいフレームワークである。
我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。
論文 参考訳(メタデータ) (2023-09-05T17:59:42Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Detecting Deepfake Videos Using Euler Video Magnification [1.8506048493564673]
Deepfakeのビデオは、高度な機械学習技術を使ってビデオを操作している。
本稿では,ディープフェイク映像の識別技術について検討する。
提案手法では,Euler手法から抽出した特徴を用いて,偽造映像と未修正映像を分類する3つのモデルを訓練する。
論文 参考訳(メタデータ) (2021-01-27T17:37:23Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Realistic Face Reenactment via Self-Supervised Disentangling of Identity
and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。
提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。
実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文 参考訳(メタデータ) (2020-03-29T06:45:17Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。