論文の概要: AvatarShield: Visual Reinforcement Learning for Human-Centric Synthetic Video Detection
- arxiv url: http://arxiv.org/abs/2505.15173v3
- Date: Tue, 23 Sep 2025 14:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 16:16:25.640337
- Title: AvatarShield: Visual Reinforcement Learning for Human-Centric Synthetic Video Detection
- Title(参考訳): AvatarShield:人中心合成ビデオ検出のための視覚強化学習
- Authors: Zhipei Xu, Xuanyu Zhang, Qing Huang, Xing Zhou, Jian Zhang,
- Abstract要約: 人間中心のビデオ生成法は、人体全体を制御可能な動きで合成することができる。
既存の検出方法は、このようなフルボディの合成コンテンツによって引き起こされるリスクの増大をおおむね見落としている。
マルチモーダルな人間中心型合成ビデオ検出フレームワークであるAvatarShieldを提案する。
- 参考スコア(独自算出の注目度): 20.800161778433914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Artificial Intelligence Generated Content have led to highly realistic synthetic videos, particularly in human-centric scenarios involving speech, gestures, and full-body motion, posing serious threats to information authenticity and public trust. Unlike DeepFake techniques that focus on localized facial manipulation, human-centric video generation methods can synthesize entire human bodies with controllable movements, enabling complex interactions with environments, objects, and even other people. However, existing detection methods largely overlook the growing risks posed by such full-body synthetic content. Meanwhile, a growing body of research has explored leveraging LLMs for interpretable fake detection, aiming to explain decisions in natural language. Yet these approaches heavily depend on supervised fine-tuning, which introduces limitations such as annotation bias, hallucinated supervision, and weakened generalization. To address these challenges, we propose AvatarShield, a novel multimodal human-centric synthetic video detection framework that eliminates the need for dense textual supervision by adopting Group Relative Policy Optimization, enabling LLMs to develop reasoning capabilities from simple binary labels. Our architecture combines a discrete vision tower for high-level semantic inconsistencies and a residual extractor for fine-grained artifact analysis. We further introduce FakeHumanVid, a large-scale benchmark containing 15K real and synthetic videos across nine state-of-the-art human generation methods driven by text, pose, or audio. Extensive experiments demonstrate that AvatarShield outperforms existing methods in both in-domain and cross-domain settings.
- Abstract(参考訳): 人工知能生成コンテンツの最近の進歩は、特にスピーチ、ジェスチャー、全身の動きを含む人間中心のシナリオにおいて、非常にリアルな合成ビデオをもたらし、情報信頼性と公衆信頼に深刻な脅威をもたらしている。
局所的な顔操作に焦点を当てたDeepFakeの手法とは異なり、人間中心のビデオ生成手法は、人体全体を制御可能な動きで合成し、環境や物体、さらには他の人々との複雑な相互作用を可能にする。
しかし、既存の検出方法は、このようなフルボディ合成コンテンツによって生じるリスクの増大をおおむね見落としている。
一方,LLMを解釈可能な偽検出に活用し,自然言語による意思決定の解明を目指す研究団体が増えている。
しかし、これらのアプローチは、アノテーションバイアス、幻覚的監督、一般化の弱化といった制限を導入する教師付き微調整に大きく依存する。
AvatarShieldは、グループ相対的ポリシー最適化を採用することで、高密度テキスト管理の必要性を解消し、シンプルなバイナリラベルから推論機能を開発することができる新しいマルチモーダルヒューマン中心型合成ビデオ検出フレームワークである。
我々のアーキテクチャは、高レベルの意味的不整合に対する離散的な視覚塔と、きめ細かいアーティファクト分析のための残留抽出器を組み合わせたものである。
さらにFakeHumanVidは、テキスト、ポーズ、オーディオによって駆動される9つの最先端の人間生成方法にわたる15Kのリアルビデオと合成ビデオを含む大規模なベンチマークである。
大規模な実験では、AvatarShieldはドメイン内設定とクロスドメイン設定の両方で既存のメソッドよりも優れています。
関連論文リスト
- Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - Robustness in AI-Generated Detection: Enhancing Resistance to Adversarial Attacks [4.179092469766417]
本稿では,現在のAI生成顔検出システムの脆弱性について検討する。
本稿では, 対人訓練を統合し, 対人訓練の効果を緩和するアプローチを提案する。
我々はまた、AI生成コンテンツの本質的な特徴に関する洞察を提供する、敵対的および良心的な事例の詳細な分析も提供する。
論文 参考訳(メタデータ) (2025-05-06T11:19:01Z) - A Knowledge-guided Adversarial Defense for Resisting Malicious Visual Manipulation [93.28532038721816]
視覚的操作の悪意ある応用は、多くの分野でユーザーのセキュリティと評判に深刻な脅威をもたらしている。
本稿では,悪質な操作モデルを積極的に強制し,意味論的に混乱したサンプルを出力するために,知識誘導型敵防衛(KGAD)を提案する。
論文 参考訳(メタデータ) (2025-04-11T10:18:13Z) - Unleashing the Power of Pre-trained Encoders for Universal Adversarial Attack Detection [21.03032944637112]
アドリアック攻撃は、現実世界のAIシステムにとって重要なセキュリティ脅威となる。
本稿では,大規模事前学習型視覚言語モデルCLIPに基づく,軽量な逆検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-01T05:21:45Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Adversarial Robustness of AI-Generated Image Detectors in the Real World [13.52355280061187]
現状の最先端分類器は,実環境下での敵例に対して脆弱であることを示す。
ほとんどの攻撃は、例えばソーシャルメディアプラットフォームへのアップロード中に画像が劣化しても有効である。
ケーススタディでは、HIVEに対してブラックボックス攻撃を行うことにより、これらの堅牢性の課題が商用ツールにも見られることを示した。
論文 参考訳(メタデータ) (2024-10-02T14:11:29Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - The Tug-of-War Between Deepfake Generation and Detection [4.62070292702111]
マルチモーダル生成モデルは急速に進化しており、現実的なビデオやオーディオの生成が急増している。
ディープフェイクビデオは、個人を説得力を持って偽造することができるが、悪用の可能性から特に注目を集めている。
本研究では,ディープフェイク映像の生成と検出の両面を考察し,効果的な対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-07-08T17:49:41Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - VideoForensicsHQ: Detecting High-quality Manipulated Face Videos [77.60295082172098]
偽造検知器の性能は、人間の目で見られる人工物の存在にどのように依存するかを示す。
前例のない品質の顔ビデオ偽造検出のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-05-20T21:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。