論文の概要: Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation
- arxiv url: http://arxiv.org/abs/2511.07051v1
- Date: Mon, 10 Nov 2025 12:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.248684
- Title: Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation
- Title(参考訳): 強化学習に基づく適応データ拡張によるディープフェイク検出の改善
- Authors: Yuxuan Zhou, Tao Yu, Wen Huang, Yuheng Zhang, Tao Dai, Shu-Tao Xia,
- Abstract要約: CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
- 参考スコア(独自算出の注目度): 60.04281435591454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generalization capability of deepfake detectors is critical for real-world use. Data augmentation via synthetic fake face generation effectively enhances generalization, yet current SoTA methods rely on fixed strategies-raising a key question: Is a single static augmentation sufficient, or does the diversity of forgery features demand dynamic approaches? We argue existing methods overlook the evolving complexity of real-world forgeries (e.g., facial warping, expression manipulation), which fixed policies cannot fully simulate. To address this, we propose CRDA (Curriculum Reinforcement-Learning Data Augmentation), a novel framework guiding detectors to progressively master multi-domain forgery features from simple to complex. CRDA synthesizes augmented samples via a configurable pool of forgery operations and dynamically generates adversarial samples tailored to the detector's current learning state. Central to our approach is integrating reinforcement learning (RL) and causal inference. An RL agent dynamically selects augmentation actions based on detector performance to efficiently explore the vast augmentation space, adapting to increasingly challenging forgeries. Simultaneously, the agent introduces action space variations to generate heterogeneous forgery patterns, guided by causal inference to mitigate spurious correlations-suppressing task-irrelevant biases and focusing on causally invariant features. This integration ensures robust generalization by decoupling synthetic augmentation patterns from the model's learned representations. Extensive experiments show our method significantly improves detector generalizability, outperforming SOTA methods across multiple cross-domain datasets.
- Abstract(参考訳): ディープフェイク検出器の一般化能力は現実世界での使用には不可欠である。
合成偽顔生成によるデータ拡張は、効果的に一般化を促進するが、現在のSoTAメソッドは、重要な疑問を提起する固定戦略に依存している。
既存の手法は、固定されたポリシーが完全にシミュレートできない現実世界の偽造(例えば、顔のワープ、表情の操作)の進化する複雑さを見落としていると論じる。
そこで我々はCRDA(Curriculum Reinforcement-Learning Data Augmentation)を提案する。
CRDAは、フォージェリー操作の設定可能なプールを介して強化されたサンプルを合成し、検出器の現在の学習状態に合わせて動的に対向的なサンプルを生成する。
我々のアプローチの中心は、強化学習(RL)と因果推論を統合することである。
RLエージェントは検出器性能に基づいて拡張動作を動的に選択し、拡張空間を効率的に探索し、ますます困難な偽造に適応する。
エージェントは同時に行動空間の変化を導入し、因果推論によって誘導される異種偽造パターンを生成し、突発的相関を緩和し、タスク非関連バイアスを抑え、因果的不変性に焦点を当てる。
この統合により、モデルが学習した表現から合成拡張パターンを分離することで、堅牢な一般化が保証される。
大規模な実験により,本手法は検出器の一般化可能性を大幅に向上し,複数のクロスドメインデータセットにおけるSOTA法よりも優れていた。
関連論文リスト
- On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - Deepfake Detection that Generalizes Across Benchmarks [48.85953407706351]
ディープフェイク検出器の非表示操作技術への一般化は、実用的展開の課題である。
この研究は、基礎となる事前学習された視覚エンコーダのパラメータ効率適応により、ロバストな一般化が達成可能であることを示す。
提案手法は、平均的クロスデータセットAUROCにおける、より複雑な、最新のアプローチよりも優れた、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-08T12:03:56Z) - Adaptive Meta-Learning for Robust Deepfake Detection: A Multi-Agent Framework to Data Drift and Model Generalization [6.589206192038365]
本稿では,タスク固有適応型サンプル合成と整合性正規化を用いた対角的メタ学習アルゴリズムを提案する。
これにより、モデルの堅牢性と一般化の両方が促進される。
実験結果は、モデルが様々なデータセットにわたって一貫した性能を示し、比較したモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-11-12T19:55:07Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [81.93945602120453]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。