Fugu-MT 論文翻訳(概要): Vulnerability-Aware Spatio-Temporal Learning for Generalizable Deepfake Video Detection

論文の概要: Vulnerability-Aware Spatio-Temporal Learning for Generalizable Deepfake Video Detection

arxiv url: http://arxiv.org/abs/2501.01184v3
Date: Sat, 19 Jul 2025 09:15:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-22 18:47:38.820214
Title: Vulnerability-Aware Spatio-Temporal Learning for Generalizable Deepfake Video Detection
Title（参考訳）: 一般化可能なディープフェイク映像検出のための脆弱性を考慮した時空間学習
Authors: Dat Nguyen, Marcella Astrid, Anis Kacem, Enjie Ghorbel, Djamila Aouada,
Abstract要約: 本稿では,FakeSTormerと呼ばれる微細なディープフェイク映像検出手法を提案する。具体的には、2つの補助分岐を組み込んだマルチタスク学習フレームワークを導入する。また、微妙な時間的アーティファクトを持つ擬似フェイクビデオを生成するビデオレベルの合成戦略を提案する。
参考スコア（独自算出の注目度）: 14.586314545834934
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Detecting deepfake videos is highly challenging given the complexity of characterizing spatio-temporal artifacts. Most existing methods rely on binary classifiers trained using real and fake image sequences, therefore hindering their generalization capabilities to unseen generation methods. Moreover, with the constant progress in generative Artificial Intelligence (AI), deepfake artifacts are becoming imperceptible at both the spatial and the temporal levels, making them extremely difficult to capture. To address these issues, we propose a fine-grained deepfake video detection approach called FakeSTormer that enforces the modeling of subtle spatio-temporal inconsistencies while avoiding overfitting. Specifically, we introduce a multi-task learning framework that incorporates two auxiliary branches for explicitly attending artifact-prone spatial and temporal regions. Additionally, we propose a video-level data synthesis strategy that generates pseudo-fake videos with subtle spatio-temporal artifacts, providing high-quality samples and hand-free annotations for our additional branches. Extensive experiments on several challenging benchmarks demonstrate the superiority of our approach compared to recent state-of-the-art methods. The code is available at https://github.com/10Ring/FakeSTormer.
Abstract（参考訳）: 時空間的アーティファクトを特徴づける複雑さを考えると、ディープフェイクビデオの検出は非常に難しい。既存のほとんどの手法は、実画像シーケンスと偽画像シーケンスを使って訓練されたバイナリ分類器に依存しているため、その一般化能力が見えない生成方法に妨げられている。さらに、生成人工知能(AI)の進歩が絶え間なく進んでいるため、深層生物は空間レベルと時間レベルの両方で知覚されにくくなり、捕獲が極めて困難になっている。これらの問題に対処するため、我々はFakeSTormerと呼ばれる微細な深度ビデオ検出手法を提案し、過度な適合を回避しつつ、微妙な時空間不整合のモデリングを強制する。具体的には、2つの補助分岐を組み込んだマルチタスク学習フレームワークを導入する。さらに,疑似フェイク映像を微妙な時空間的アーティファクトで生成し,高品質なサンプルと手書きアノテーションを付加したビデオレベルのデータ合成戦略を提案する。いくつかの挑戦的なベンチマークに関する大規模な実験は、最近の最先端手法と比較して、我々のアプローチの優位性を示している。コードはhttps://github.com/10Ring/FakeSTormer.comで入手できる。

関連論文リスト

BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-06-25T03:30:04Z)
Deepfake Detection with Spatio-Temporal Consistency and Attention [46.1135899490656]
ディープフェイクビデオは、現実主義の高まりにより、コミュニティの間で懸念が高まっている。鍛造ビデオ検出の現在の方法は、主にグローバルなフレーム機能に依存している。本稿では,偽ビデオの局所的な操作的シグネチャに着目したニューラルディープフェイク検出器を提案する。
論文参考訳（メタデータ） (2025-02-12T08:51:33Z)
Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter Tuning [41.30923253467854]
時間的特徴は複雑で多様である。時空間モデルは、しばしばある種類のアーティファクトに強く依存し、もう一方を無視します。ビデオは当然リソース集約だ。
論文参考訳（メタデータ） (2024-08-30T07:49:57Z)
UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文参考訳（メタデータ） (2024-07-26T20:51:54Z)
Learning Temporally Consistent Video Depth from Video Diffusion Priors [62.36887303063542]
本研究は,ストリーム映像深度推定の課題に対処する。フレームやクリップ間でコンテキスト情報を共有することは、時間的一貫性を育む上で重要である、と我々は主張する。具体的には、任意の長さの動画に対して一貫したコンテキスト認識学習と推論戦略を提案し、クロスクリップなコンテキストを提供する。
論文参考訳（メタデータ） (2024-06-03T16:20:24Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
AltFreezing for More General Video Face Forgery Detection [138.5732617371004]
顔偽造検出のための1つのモデルにおいて,空間的および見えない時間的アーティファクトの両方をキャプチャすることを提案する。より一般的な顔偽造検出のためのAltFreezingと呼ばれる新しいトレーニング戦略を提案する。
論文参考訳（メタデータ） (2023-07-17T08:24:58Z)
Undercover Deepfakes: Detecting Fake Segments in Videos [1.2609216345578933]
ディープフェイク・ジェネレーションはディープフェイクの新しいパラダイムだほとんどは真実を歪めるためにわずかに修正された実際のビデオだ本稿では,フレームとビデオレベルでディープフェイク予測を行うことにより,この問題に対処できるディープフェイク検出手法を提案する。特に、私たちが取り組むパラダイムは、ディープフェイクのモデレーションのための強力なツールを形成します。
論文参考訳（メタデータ） (2023-05-11T04:43:10Z)
Detecting Deepfake by Creating Spatio-Temporal Regularity Disruption [94.5031244215761]
本稿では,実際のビデオにない「規則性破壊」を識別することで,ディープフェイク検出の一般化を促進することを提案する。具体的には、空間的・時間的特性を慎重に調べることで、擬似フェイク発生器による実映像の破壊を提案する。このような手法により,フェイクビデオを使わずにディープフェイク検出が可能となり,よりシンプルかつ効率的に一般化能力を向上させることができる。
論文参考訳（メタデータ） (2022-07-21T10:42:34Z)
Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文参考訳（メタデータ） (2022-03-25T12:13:43Z)
Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。未探索の音声-顔のマッチングビューからディープフェイク検出を行う。我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文参考訳（メタデータ） (2022-03-04T09:08:50Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Detection of Deepfake Videos Using Long Distance Attention [73.6659488380372]
既存のほとんどの検出方法は、問題をバニラ二項分類問題として扱う。本稿では,偽顔と実顔の相違が非常に微妙であるため,特にきめ細かな分類問題として扱われる。大域的な視点で空間的・時間的偽の痕跡を捉えるための2つの要素を持つ時空間モデルを提案する。
論文参考訳（メタデータ） (2021-06-24T08:33:32Z)
Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文参考訳（メタデータ） (2021-05-29T21:22:24Z)
Spatio-temporal Features for Generalized Detection of Deepfake Videos [12.453288832098314]
我々は3D CNNによってモデル化された時間的特徴を提案し、新しい種類のディープビデオを検出する能力を拡張した。提案手法は,一般化能力において既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-10-22T16:28:50Z)
Deepfake Detection using Spatiotemporal Convolutional Networks [0.0]
ディープフェイク検出法は個々のフレームのみを使用し、時間情報から学習することができない。我々はCeleb-DFデータセットを用いて性能のベンチマークを作成した。提案手法は,最先端のフレームベース検出法より優れていた。
論文参考訳（メタデータ） (2020-06-26T01:32:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。