論文の概要: Micro-Expression-Aware Avatar Fingerprinting via Inter-Frame Feature Differencing
- arxiv url: http://arxiv.org/abs/2604.23247v1
- Date: Sat, 25 Apr 2026 10:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.225027
- Title: Micro-Expression-Aware Avatar Fingerprinting via Inter-Frame Feature Differencing
- Title(参考訳): フレーム間特徴差法によるマイクロ圧縮アバターフィンガープリント
- Authors: Masoumeh Chapariniya, Jean-Marc Odobez, Volker Dellwo, Teodora Vuković,
- Abstract要約: アバターの指紋認証は、それが本物かどうかではなく、誰が合成トーキングヘッドビデオを駆動しているかを検証する。
既存の方法は、固定された、微分不可能なランドマーク抽出段階に依存している。
生ビデオフレームで動作するマイクロ圧縮対応バックボーン上に構築したプリプロセッシングフリーシステムを提案する。
- 参考スコア(独自算出の注目度): 12.334126578226318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Avatar fingerprinting, i.e., verifying who drives a synthetic talking-head video rather than whether it is real, is a critical safeguard for authorized use of face-reenactment technology. Existing methods rely on a fixed, non-differentiable landmark extraction stage that prevents the fingerprinting model from being optimized end-to-end from raw pixels. We propose a preprocessing-free system built on a micro-expression-aware backbone operating on raw video frames, with inter-frame feature differencing as the core design principle: consecutive feature maps are subtracted in the learned deep feature space, so that temporally stable appearance dimensions contribute zero to the output while driver-specific motion dynamics are preserved. A controlled ablation on NVFAIR confirms that temporal motion accounts for the large majority of discriminative performance, and that raw appearance features actively degrade identity separation. Both the choice of backbone and the differencing principle are essential: differencing alone is insufficient when applied to a generic encoder, as appearance-dominated features collapse to near-identical representations across adjacent frames, while the micro-expression-aware F5C backbone retains measurable motion variation that the differencing operation can exploit. Without any external preprocessing, our model achieves an overall AUC of 0.877 on NVFAIR and matches or exceeds the landmark-based baseline on the majority of cross-generator pairs.
- Abstract(参考訳): アバター・フィンガープリント(アバター・フィンガープリント)とは、顔の再現技術の使用を認証するための重要な安全策である。
既存の手法では、指紋認証モデルが生のピクセルからエンドツーエンドに最適化されるのを防ぐ、固定された、微分不可能なランドマーク抽出ステージに依存している。
生のビデオフレーム上で動作するマイクロ圧縮を意識したバックボーン上に構築されたプリプロセッシングフリーシステムにおいて、フレーム間の特徴を基本設計原理として、学習した深層特徴空間において連続的な特徴写像を減算し、ドライバー固有の運動力学を保存しながら、時間的に安定した外観寸法が出力にゼロとなるようにした。
NVFAIRの制御されたアブレーションは、時間的動きが差別的パフォーマンスの大部分を占め、生の外観の特徴がアイデンティティ分離を積極的に劣化させることを確認する。
バックボーンの選択と相違原理の両方が不可欠である: 一般的なエンコーダに適用する場合、外観に支配される特徴が隣接するフレーム間でほぼ同一の表現に崩壊するのに対して、マイクロ圧縮を意識したF5Cバックボーンは、相違操作が活用できる測定可能な動作変化を保持するため、相違は不十分である。
外部前処理がなければ,我々のモデルはNVFAIR上で0.877のAUCを達成でき,ほとんどのクロスジェネレータペアのランドマークベースラインにマッチするか,あるいは超える。
関連論文リスト
- ViPS: Video-informed Pose Spaces for Auto-Rigged Meshes [55.32681167870698]
Video-informed Pose Spaces (ViPS)は、自動リップメッシュのための有効な調律の潜時分布を検出するフィードフォワードフレームワークである。
ViPSは生成ビデオの先行値を所定のリグパラメータ化上の普遍分布に転送する。
評価の結果,VPSは,合成アーティストが作成した4Dデータに基づいて訓練した最先端の手法の性能と,妥当性と多様性の両面で一致していることがわかった。
論文 参考訳(メタデータ) (2026-04-19T21:21:11Z) - Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control [31.523644271297616]
一般化可能なロボット操作における重要なボトルネックは、現在の視覚的バックボーンと閉ループ制御の物理的要求との間の構造的ミスマッチである。
我々は,マニフォールド蒸留による推論プロセスから幾何学的情報ソースを分離するフレームワークであるRobot-DIFTを提案する。
凍結拡散教師を決定論的空間意味的特徴ピラミッドネットワーク(S2-FPN)に蒸留することにより、時間的安定性、リアルタイム実行、ドリフトに対する堅牢性を確保しつつ、生成モデルの豊富な幾何学的先行性を維持できる。
論文 参考訳(メタデータ) (2026-02-12T13:30:24Z) - OptiCorNet: Optimizing Sequence-Based Context Correlation for Visual Place Recognition [2.3093110834423616]
本稿では,新しいシーケンスモデリングフレームワークOptiCorNetを提案する。
空間的特徴抽出と時間的差分を微分可能でエンドツーエンドのトレーニング可能なモジュールに統一する。
本手法は,季節的・視点的な変化に挑戦し,最先端のベースラインよりも優れる。
論文 参考訳(メタデータ) (2025-07-19T04:29:43Z) - Generative Adversarial Patches for Physical Attacks on Cross-Modal Pedestrian Re-Identification [24.962600785183582]
Visible-Infrared pedestrian Re-identification (VI-ReID)は、赤外線カメラと可視カメラで撮影された歩行者画像とをマッチングすることを目的としている。
本稿では,VI-ReIDモデルに対する最初の物理的攻撃について紹介する。
論文 参考訳(メタデータ) (2024-10-26T06:40:10Z) - Face Forgery Detection with Elaborate Backbone [50.914676786151574]
Face Forgery Detectionは、デジタル顔が本物か偽物かを決定することを目的としている。
以前のFFDモデルは、偽造の手がかりを表現および抽出するために既存のバックボーンを直接使用していた。
本稿では,実顔データセットを用いた自己教師型学習でVTネットワークを活用することで,バックボーンの事前トレーニングを提案する。
次に、多様な偽の手がかりを抽出するバックボーンの能力を強化するために、競争力のあるバックボーンの微調整フレームワークを構築します。
論文 参考訳(メタデータ) (2024-09-25T13:57:16Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - NR-DFERNet: Noise-Robust Network for Dynamic Facial Expression
Recognition [1.8604727699812171]
DFERタスクにおけるノイズフレームの干渉を低減するために、ノイズロスト動的表情認識ネットワーク(NR-DFERNet)を提案する。
具体的には、空間的段階において、より識別的な空間的特徴を学習するために静的特徴に動的特徴を導入する動的静的融合モジュール(DSF)を考案する。
対象の無関係なフレームの影響を抑えるために,時間段階の変換器に新しい動的クラストークン(DCT)を導入する。
論文 参考訳(メタデータ) (2022-06-10T10:17:30Z) - Frequency-aware Discriminative Feature Learning Supervised by
Single-Center Loss for Face Forgery Detection [89.43987367139724]
顔の偽造検出は、コンピュータビジョンへの関心をますます高めている。
近年の業績は良好なものとなっているが、いまだに無視できない問題がある。
本稿では,新しい周波数認識型特徴学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-16T14:17:17Z) - "I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion
Recognition [0.0]
音声による感情認識を利用するアプリケーションでは、フレームロスは多様体の応用を考えると深刻な問題となる。
フレームロスが音声による感情認識に与える影響を初めて検討する。
論文 参考訳(メタデータ) (2020-05-15T19:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。