論文の概要: AvatarShield: Visual Reinforcement Learning for Human-Centric Video Forgery Detection
- arxiv url: http://arxiv.org/abs/2505.15173v1
- Date: Wed, 21 May 2025 06:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.016946
- Title: AvatarShield: Visual Reinforcement Learning for Human-Centric Video Forgery Detection
- Title(参考訳): AvatarShield:人間中心のビデオ偽造検出のための視覚強化学習
- Authors: Zhipei Xu, Xuanyu Zhang, Xing Zhou, Jian Zhang,
- Abstract要約: AvatarShieldは人間中心のフェイクビデオを検出する最初の解釈可能なMLLMベースのフレームワークである。
低コストのテキストアノテーションデータの使用を効果的に回避し、正確な時間的モデリングと偽造検出を可能にする。
また、高レベルの意味的推論と低レベルの成果物増幅を組み合わせたデュアルエンコーダアーキテクチャを設計し、MLLMを効果的な偽造検出に導く。
- 参考スコア(独自算出の注目度): 16.00110817349377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Artificial Intelligence Generated Content (AIGC) technologies, particularly in video generation, has led to unprecedented creative capabilities but also increased threats to information integrity, identity security, and public trust. Existing detection methods, while effective in general scenarios, lack robust solutions for human-centric videos, which pose greater risks due to their realism and potential for legal and ethical misuse. Moreover, current detection approaches often suffer from poor generalization, limited scalability, and reliance on labor-intensive supervised fine-tuning. To address these challenges, we propose AvatarShield, the first interpretable MLLM-based framework for detecting human-centric fake videos, enhanced via Group Relative Policy Optimization (GRPO). Through our carefully designed accuracy detection reward and temporal compensation reward, it effectively avoids the use of high-cost text annotation data, enabling precise temporal modeling and forgery detection. Meanwhile, we design a dual-encoder architecture, combining high-level semantic reasoning and low-level artifact amplification to guide MLLMs in effective forgery detection. We further collect FakeHumanVid, a large-scale human-centric video benchmark that includes synthesis methods guided by pose, audio, and text inputs, enabling rigorous evaluation of detection methods in real-world scenes. Extensive experiments show that AvatarShield significantly outperforms existing approaches in both in-domain and cross-domain detection, setting a new standard for human-centric video forensics.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)技術の急速な進歩は、特にビデオ生成において、前例のない創造性をもたらしただけでなく、情報の完全性、アイデンティティのセキュリティ、公的な信頼に対する脅威も増している。
既存の検出方法は一般的なシナリオでは有効であるが、人間中心のビデオに対する堅牢な解決策が欠如しており、現実主義と法的および倫理的誤用の可能性により大きなリスクが生じる。
さらに、現在の検出手法は、一般化の貧弱さ、スケーラビリティの制限、労働集約的な微調整への依存に悩まされることが多い。
これらの課題に対処するために,グループ相対ポリシー最適化(GRPO)によって強化された,人間中心の偽ビデオを検出する最初の解釈可能なMLLMベースのフレームワークであるAvatarShieldを提案する。
精度検出報酬と時間的補償報酬を慎重に設計することにより、高コストのテキストアノテーションデータの使用を効果的に回避し、正確な時間的モデリングと偽造検出を可能にする。
一方,高レベルの意味的推論と低レベルのアーティファクト増幅を組み合わせたデュアルエンコーダアーキテクチャを設計し,MLLMを効果的な偽造検出に導く。
さらに、ポーズ、音声、テキスト入力でガイドされる合成方法を含む大規模な人中心ビデオベンチマークであるFakeHumanVidを収集し、現実世界のシーンにおける検出方法の厳密な評価を可能にする。
大規模な実験により、AvatarShieldは、ドメイン内およびクロスドメイン検出の両方において既存のアプローチよりも大幅に優れており、人間中心の動画鑑定の新しい標準が設定されている。
関連論文リスト
- Robustness in AI-Generated Detection: Enhancing Resistance to Adversarial Attacks [4.179092469766417]
本稿では,現在のAI生成顔検出システムの脆弱性について検討する。
本稿では, 対人訓練を統合し, 対人訓練の効果を緩和するアプローチを提案する。
我々はまた、AI生成コンテンツの本質的な特徴に関する洞察を提供する、敵対的および良心的な事例の詳細な分析も提供する。
論文 参考訳(メタデータ) (2025-05-06T11:19:01Z) - A Knowledge-guided Adversarial Defense for Resisting Malicious Visual Manipulation [93.28532038721816]
視覚的操作の悪意ある応用は、多くの分野でユーザーのセキュリティと評判に深刻な脅威をもたらしている。
本稿では,悪質な操作モデルを積極的に強制し,意味論的に混乱したサンプルを出力するために,知識誘導型敵防衛(KGAD)を提案する。
論文 参考訳(メタデータ) (2025-04-11T10:18:13Z) - Unleashing the Power of Pre-trained Encoders for Universal Adversarial Attack Detection [21.03032944637112]
アドリアック攻撃は、現実世界のAIシステムにとって重要なセキュリティ脅威となる。
本稿では,大規模事前学習型視覚言語モデルCLIPに基づく,軽量な逆検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-01T05:21:45Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - The Tug-of-War Between Deepfake Generation and Detection [4.62070292702111]
マルチモーダル生成モデルは急速に進化しており、現実的なビデオやオーディオの生成が急増している。
ディープフェイクビデオは、個人を説得力を持って偽造することができるが、悪用の可能性から特に注目を集めている。
本研究では,ディープフェイク映像の生成と検出の両面を考察し,効果的な対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-07-08T17:49:41Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - VideoForensicsHQ: Detecting High-quality Manipulated Face Videos [77.60295082172098]
偽造検知器の性能は、人間の目で見られる人工物の存在にどのように依存するかを示す。
前例のない品質の顔ビデオ偽造検出のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-05-20T21:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。