論文の概要: AI-Powered Deepfake Detection Using CNN and Vision Transformer Architectures
- arxiv url: http://arxiv.org/abs/2601.01281v1
- Date: Sat, 03 Jan 2026 20:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.163768
- Title: AI-Powered Deepfake Detection Using CNN and Vision Transformer Architectures
- Title(参考訳): CNNと視覚変換器アーキテクチャを用いたAIによるディープフェイク検出
- Authors: Sifatullah Sheikh Urmi, Kirtonia Nuzath Tabassum Arthi, Md Al-Imran,
- Abstract要約: 3つのCNNと1つのVision Transformerで構成される4つのAIベースのモデルを評価した。
データ前処理と拡張技術により、さまざまなシナリオにおけるモデルパフォーマンスが改善された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing use of artificial intelligence generated deepfakes creates major challenges in maintaining digital authenticity. Four AI-based models, consisting of three CNNs and one Vision Transformer, were evaluated using large face image datasets. Data preprocessing and augmentation techniques improved model performance across different scenarios. VFDNET demonstrated superior accuracy with MobileNetV3, showing efficient performance, thereby demonstrating AI's capabilities for dependable deepfake detection.
- Abstract(参考訳): 人工知能が生成するディープフェイクの利用の増加は、デジタル認証を維持する上で大きな課題を生んでいる。
3つのCNNと1つのVision Transformerで構成される4つのAIベースモデルを顔画像データセットを用いて評価した。
データ前処理と拡張技術により、さまざまなシナリオにおけるモデルパフォーマンスが改善された。
VFDNETはMobileNetV3で優れた精度を示し、効率的な性能を示し、信頼性の高いディープフェイク検出のためのAIの能力を実証した。
関連論文リスト
- 4D Visual Pre-training for Robot Learning [71.22906081161324]
ロボット工学のためのWebスケールデータセットから得られた一般的な視覚表現は、近年大きな成功を収めている。
しかし、これらの事前訓練された表現は、主に2D画像に基づいており、世界の固有の3Dの性質を無視している。
代替として、すべての3D表現を改善することのできる、一般的なビジュアル事前学習フレームワークを模索しています。
我々のフレームワークはFVPと呼ばれ、現実世界のロボット学習のための新しい4Dビジュアル事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-08-24T07:06:56Z) - Combating Digitally Altered Images: Deepfake Detection [0.0]
本研究では,改良型視覚変換器(ViT)モデルに基づく頑健なディープフェイク検出手法を提案する。
このモデルはOpenForensicsデータセットのサブセットで、さまざまなイメージ操作の堅牢性を高めるために、複数の拡張テクニックでトレーニングされている。
このモデルは、テストデータセット上で最先端の結果を示し、Deepfakeイメージを慎重に検出する。
論文 参考訳(メタデータ) (2025-08-23T09:59:03Z) - DFBench: Benchmarking Deepfake Image Detection Capability of Large Multimodal Models [43.86847047796023]
現在のディープフェイク検出方法は、生成モデルやコンテンツの多様性に制限のあるデータセットに依存することが多い。
textbfDFBenchは大規模なDeepFakeベンチマークで、リアル、AI編集、AI生成コンテンツにわたって54万のイメージが提供されている。
我々は,複数のLMMから合成された確率戦略を利用して,ディープフェイク検出のための混合エージェントであるtextbfMoA-DFを提案する。
論文 参考訳(メタデータ) (2025-06-03T15:45:41Z) - Classifying Deepfakes Using Swin Transformers [12.693895808318794]
本研究では,移動ウィンドウを自己注意に活用した最先端アーキテクチャであるSwin Transformersのディープフェイク画像の検出と分類への応用について検討する。
我々はSwin-ResNetやSwin-KNNのようなSwin Transformerとハイブリッドモデルを評価し、微妙な加工物を識別する能力に焦点を当てた。
論文 参考訳(メタデータ) (2025-01-26T19:35:46Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [88.85002707211777]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークはVFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出する。
このアライメントは、クロスモーダルな表現学習を促進し、2Dデータと3Dデータのセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Explainable Multi-Camera 3D Object Detection with Transformer-Based
Saliency Maps [0.0]
ビジョントランスフォーマー(ViT)は、3Dオブジェクト検出を含む様々なコンピュータビジョンタスクにおいて最先端の結果を得た。
エンドツーエンドの実装により、ViTの説明がより簡単になるため、安全クリティカルなアプリケーションにViTをデプロイする上での課題になる可能性がある。
本稿では,3次元物体検出に使用される複数のカメラ入力を持つDETRライクなViTのサリエンシマップを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:03:12Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。