論文の概要: Deepfake Detection in Social Media: A Temporal Artifact Analysis Using 3D Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2605.17573v1
- Date: Sun, 17 May 2026 18:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.21047
- Title: Deepfake Detection in Social Media: A Temporal Artifact Analysis Using 3D Convolutional Neural Networks
- Title(参考訳): ソーシャルメディアにおけるディープフェイク検出:3次元畳み込みニューラルネットワークを用いた時間的人工物分析
- Authors: Mohammadreza Rashidi, Raja Hashim Ali, Sami Ur Rahman,
- Abstract要約: フレームレベルのディープフェイク検出器は、発電機の品質が向上するにつれて急激に劣化する。
高品質の128x128 GAN出力は、空間のみの精度を5ポイント削減する。
R3D-18に基づく3次元畳み込みニューラルネットワーク検出器を用いて,このギャップを解消する。
- 参考スコア(独自算出の注目度): 2.1735205111264007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic facial videos have proliferated across social media faster than platform moderation can respond, raising the cost of disinformation and identity-based attacks. Frame-level deepfake detectors degrade sharply as generator quality increases; high-quality 128x128 GAN output cuts spatial-only accuracy by five percentage points while leaving temporal inconsistencies largely intact. We address this gap with a 3D Convolutional Neural Network detector based on R3D-18, trained with a composite loss that combines binary cross-entropy with a temporal-consistency regularizer. The model processes 16-frame clips from the DeepfakeTIMIT dataset and is initialized from Kinetics-400 action-recognition weights. We report 92.8% accuracy on intra-dataset evaluation at 128x128 resolution; cross-dataset transfer to FaceForensics++ without fine-tuning reaches 76.4%, rising after minimal fine-tuning. Ablation studies show that transfer learning contributes 7.2 percentage points and face tracking adds 3.5 points, while temporal consistency regularization provides additional gains on high-quality fakes. The results establish that temporal artifacts generalize more broadly than spatial ones, providing a detection signal that survives social-media re-encoding.
- Abstract(参考訳): 合成顔ビデオは、プラットフォームモデレーションが反応するよりもソーシャルメディア全体で急速に普及し、偽情報やアイデンティティベースの攻撃のコストが上昇している。
フレームレベルのディープフェイク検出器は、ジェネレータの品質が向上するにつれて急激に劣化し、高品質の128x128 GAN出力は、時間的不整合を残しながら、空間的のみの精度を5ポイント削減する。
このギャップをR3D-18に基づく3次元畳み込みニューラルネットワーク検出器を用いて解決し、二元交叉エントロピーと時間整合正規化器を組み合わせた複合損失を訓練する。
このモデルはDeepfakeTIMITデータセットから16フレームのクリップを処理し、Kinetics-400アクション認識重みから初期化される。
128x128の解像度でデータセット内評価の92.8%の精度を報告し、微調整なしのFaceForensics++へのクロスデータセット転送は76.4%に達し、最小微調整後に上昇した。
アブレーション研究では、トランスファーラーニングは7.2ポイント、顔追跡は3.5ポイント、時間的一貫性の規則化は高品質の偽物にさらなる利益をもたらすことが示されている。
その結果、時間的アーティファクトは空間的アーティファクトよりも広範に一般化され、ソーシャルメディアの再エンコーディングに耐える検出信号が提供されることがわかった。
関連論文リスト
- Detecting AI-Generated Videos with Spiking Neural Networks [26.67301552503132]
我々は,クロスジェネレータ評価のための冷凍セマンティックエンコーダとともに,スパイク駆動の時間枝で多チャンネル時間残差を処理する検出器であるMASTを提案する。
GenVideoベンチマークでは、MASTは厳密なクロスジェネレータ評価の下で10個の未確認発電機で93.14%の平均精度を達成した。
論文 参考訳(メタデータ) (2026-05-07T09:08:32Z) - Two Steps Are All You Need: Efficient 3D Point Cloud Anomaly Detection with Consistency Models [0.3078691410268859]
拡散モデルは、ポイントクラウドデータにおける3D異常検出を急速に再定義している。
クリーンデータに対する再構築を明示的に実施する新しいハイブリッド損失定式化を導入する。
この設計は推論コストを大幅に削減し、現在の最先端の手法よりも最大80倍高速な実行を実現した。
論文 参考訳(メタデータ) (2026-05-06T18:52:53Z) - Development of ML model for triboelectric nanogenerator based sign language detection system [0.0]
聴覚と聴覚のコミュニケーションギャップを埋めるためには手話認識が不可欠である。
本研究は、カスタムトライボ誘電体ナノジェネレータ(TENG)を用いたセンサグローブにおける機械学習(ML)とディープラーニングモデルの比較を示す。
提案したMFCC CNN-LSTMアーキテクチャは、融合前の独立した畳み込み枝を通じて各センサから周波数領域の特徴を処理する。
論文 参考訳(メタデータ) (2026-03-26T08:35:02Z) - Locally Adaptive Decay Surfaces for High-Speed Face and Landmark Detection with Event Cameras [2.467339701756281]
イベントカメラは、マイクロ秒解像度で輝度変化を記録する。
疎結合で非同期な出力を、ニューラルネットワークが活用できる高密度テンソルに変換することは、依然として重要な課題である。
局所適応型減衰面(LADS)は,各位置における時間減衰を局所信号のダイナミクスに応じて変調する事象表現系である。
論文 参考訳(メタデータ) (2026-02-26T15:16:04Z) - CT Scans As Video: Efficient Intracranial Hemorrhage Detection Using Multi-Object Tracking [0.9332987715848716]
本稿では,2次元検出の効率と3次元コンテキストの必要性を両立させる軽量コンピュータビジョンフレームワークを開発する。
計算コストのごく一部で3Dコンテキスト推論を近似することにより,リアルタイム患者優先化のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-05T19:49:51Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z) - 4D Spatio-Temporal Convolutional Networks for Object Position Estimation
in OCT Volumes [69.62333053044712]
3次元畳み込みニューラルネットワーク(CNN)は、単一のOCT画像を用いたマーカーオブジェクトのポーズ推定に有望な性能を示した。
我々は3次元CNNを4次元時間CNNに拡張し、マーカーオブジェクト追跡のための追加の時間情報の影響を評価する。
論文 参考訳(メタデータ) (2020-07-02T12:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。