論文の概要: Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection
- arxiv url: http://arxiv.org/abs/2603.24139v1
- Date: Wed, 25 Mar 2026 10:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.239659
- Title: Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection
- Title(参考訳): Tutor-Student Reinforcement Learning:ロバストディープフェイク検出のための動的カリキュラム
- Authors: Zhanhe Lei, Zhongyuan Wang, Jikang Cheng, Baojin Huang, Yuhong Yang, Zhen Han, Chao Liang, Dengpan Ye,
- Abstract要約: ディープフェイク検出のための標準教師付きトレーニングは、すべてのサンプルを均一に扱う。
トレーニングカリキュラムを動的に最適化する新しいチュータ学習フレームワークを提案する。
この適応的なカリキュラムは、目に見えない操作技術に対して、学生の一般化能力を改善することを実証する。
- 参考スコア(独自算出の注目度): 25.22720530289162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard supervised training for deepfake detection treats all samples with uniform importance, which can be suboptimal for learning robust and generalizable features. In this work, we propose a novel Tutor-Student Reinforcement Learning (TSRL) framework to dynamically optimize the training curriculum. Our method models the training process as a Markov Decision Process where a ``Tutor'' agent learns to guide a ``Student'' (the deepfake detector). The Tutor, implemented as a Proximal Policy Optimization (PPO) agent, observes a rich state representation for each training sample, encapsulating not only its visual features but also its historical learning dynamics, such as EMA loss and forgetting counts. Based on this state, the Tutor takes an action by assigning a continuous weight (0-1) to the sample's loss, thereby dynamically re-weighting the training batch. The Tutor is rewarded based on the Student's immediate performance change, specifically rewarding transitions from incorrect to correct predictions. This strategy encourages the Tutor to learn a curriculum that prioritizes high-value samples, such as hard-but-learnable examples, leading to a more efficient and effective training process. We demonstrate that this adaptive curriculum improves the Student's generalization capabilities against unseen manipulation techniques compared to traditional training methods. Code is available at https://github.com/wannac1/TSRL.
- Abstract(参考訳): ディープフェイク検出のための標準教師付きトレーニングは、全てのサンプルを均一に扱い、堅牢で一般化可能な特徴を学習するのに最適である。
本研究では,TSRL(Tutor-Student Reinforcement Learning)フレームワークを提案する。
提案手法は,学習過程をMarkov Decision Processとしてモデル化し,このプロセスでは‘`Tutor'エージェントが‘`Student'(ディープフェイク検出器)をガイドする。
Tutorは、PPOエージェントとして実装され、トレーニングサンプルごとにリッチな状態表現を観察し、視覚的特徴だけでなく、EMA損失や忘れ数などの歴史的学習ダイナミクスもカプセル化している。
この状態に基づいて、Tutorはサンプルの損失に対して連続的な重み(0-1)を割り当てることで、トレーニングバッチを動的に再重み付けする。
チューターは学生の即時のパフォーマンス変化に基づいて報酬を受け取り、特に誤った予測から正しい予測への遷移を報いる。
この戦略はTutorに、難しいが学習可能な例のような高価値なサンプルを優先するカリキュラムを学ぶことを奨励し、より効率的で効果的なトレーニングプロセスをもたらす。
この適応的なカリキュラムは、従来の訓練方法と比較して、目に見えない操作技術に対する生徒の一般化能力を向上させることを実証する。
コードはhttps://github.com/wannac1/TSRLで入手できる。
関連論文リスト
- Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training [79.96741042766524]
訓練カリキュラムをソフトセレクション機能として再構築する。
自然画像の内容の露光は,データ拡張の強度によって容易に達成できることを示す。
結果のメソッドであるEfficientTrain++は単純で汎用的だが驚くほど効果的である。
論文 参考訳(メタデータ) (2024-05-14T17:00:43Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.57123249246358]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。