論文の概要: Explainable Deepfake Detection with RL Enhanced Self-Blended Images
- arxiv url: http://arxiv.org/abs/2601.15624v1
- Date: Thu, 22 Jan 2026 03:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.484819
- Title: Explainable Deepfake Detection with RL Enhanced Self-Blended Images
- Title(参考訳): RL強調自己ブレンド画像による説明可能なディープフェイク検出
- Authors: Ning Jiang, Dingheng Zeng, Yanhong Liu, Haiyang Yi, Shijie Yu, Minghe Weng, Haifeng Shen, Ying Li,
- Abstract要約: 本稿では,自己ブレンド画像に基づく自動Chain-of-Thought(CoT)データ生成フレームワークとRL強化ディープフェイク検出フレームワークを提案する。
提案手法は,複数のクロスデータセットベンチマークにおいて,最先端(SOTA)アプローチと競合する性能を実現する。
- 参考スコア(独自算出の注目度): 13.456365650507877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most prior deepfake detection methods lack explainable outputs. With the growing interest in multimodal large language models (MLLMs), researchers have started exploring their use in interpretable deepfake detection. However, a major obstacle in applying MLLMs to this task is the scarcity of high-quality datasets with detailed forgery attribution annotations, as textual annotation is both costly and challenging - particularly for high-fidelity forged images or videos. Moreover, multiple studies have shown that reinforcement learning (RL) can substantially enhance performance in visual tasks, especially in improving cross-domain generalization. To facilitate the adoption of mainstream MLLM frameworks in deepfake detection with reduced annotation cost, and to investigate the potential of RL in this context, we propose an automated Chain-of-Thought (CoT) data generation framework based on Self-Blended Images, along with an RL-enhanced deepfake detection framework. Extensive experiments validate the effectiveness of our CoT data construction pipeline, tailored reward mechanism, and feedback-driven synthetic data generation approach. Our method achieves performance competitive with state-of-the-art (SOTA) approaches across multiple cross-dataset benchmarks. Implementation details are available at https://github.com/deon1219/rlsbi.
- Abstract(参考訳): 従来のディープフェイク検出手法には説明可能な出力がない。
MLLM(Multimodal large language model)への関心が高まり、研究者は解釈可能なディープフェイク検出に使用することを模索し始めた。
しかし、MLLMをこのタスクに適用する際の大きな障害は、テキストアノテーションが高価かつ困難であるため、詳細なフォージェリ属性アノテーションを備えた高品質なデータセットの不足である。
さらに、複数の研究により、強化学習(RL)は視覚的タスク、特にクロスドメイン一般化の改善において、パフォーマンスを大幅に向上させることができることが示されている。
アノテーションコストを低減したディープフェイク検出におけるメインストリームMLLMフレームワークの採用を容易にし、この文脈におけるRLの可能性を検討するために、自己ブレンド画像に基づく自動チェイン・オブ・ソート(CoT)データ生成フレームワークとRL強化ディープフェイク検出フレームワークを提案する。
広範囲な実験により、CoTデータ構築パイプライン、調整された報酬機構、フィードバック駆動型合成データ生成アプローチの有効性が検証された。
提案手法は,複数のクロスデータセットベンチマークにおいて,最先端(SOTA)アプローチと競合する性能を実現する。
実装の詳細はhttps://github.com/deon1219/rlsbi.comで確認できる。
関連論文リスト
- Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - Towards More General Video-based Deepfake Detection through Facial Component Guided Adaptation for Foundation Model [16.69101880602321]
一般化ビデオに基づくDeepfake検出のためのサイドネットワークベースのデコーダを提案する。
また、空間学習の一般化性を高めるために、FCG(Facial Component Guidance)を導入する。
提案手法は,Deepfakeデータセットに挑戦する上で有望な一般化性を示す。
論文 参考訳(メタデータ) (2024-04-08T14:58:52Z) - Fus-MAE: A cross-attention-based data fusion approach for Masked Autoencoders in remote sensing [5.070981175240306]
Fus-MAEは、マスク付きオートエンコーダに基づく自己教師型学習フレームワークである。
実験により,Fus-MAEは,SAR-光データ融合に適したコントラスト学習戦略と効果的に競合できることが示された。
論文 参考訳(メタデータ) (2024-01-05T11:36:21Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。