論文の概要: A Noise and Edge extraction-based dual-branch method for Shallowfake and Deepfake Localization
- arxiv url: http://arxiv.org/abs/2409.00896v1
- Date: Mon, 2 Sep 2024 02:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 08:30:49.491740
- Title: A Noise and Edge extraction-based dual-branch method for Shallowfake and Deepfake Localization
- Title(参考訳): シャロウフェイクとディープフェイクの局所化のためのノイズとエッジ抽出に基づく二分岐法
- Authors: Deepak Dagar, Dinesh Kumar Vishwakarma,
- Abstract要約: 従来のCNN機能と手動で設計した特徴雑音を統合したデュアルブランチモデルを開発した。
このモデルは比較において優れており、既存の最先端モデル(SoTA)よりも容易に優れている。
- 参考スコア(独自算出の注目度): 15.647035299476894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The trustworthiness of multimedia is being increasingly evaluated by advanced Image Manipulation Localization (IML) techniques, resulting in the emergence of the IML field. An effective manipulation model necessitates the extraction of non-semantic differential features between manipulated and legitimate sections to utilize artifacts. This requires direct comparisons between the two regions.. Current models employ either feature approaches based on handcrafted features, convolutional neural networks (CNNs), or a hybrid approach that combines both. Handcrafted feature approaches presuppose tampering in advance, hence restricting their effectiveness in handling various tampering procedures, but CNNs capture semantic information, which is insufficient for addressing manipulation artifacts. In order to address these constraints, we have developed a dual-branch model that integrates manually designed feature noise with conventional CNN features. This model employs a dual-branch strategy, where one branch integrates noise characteristics and the other branch integrates RGB features using the hierarchical ConvNext Module. In addition, the model utilizes edge supervision loss to acquire boundary manipulation information, resulting in accurate localization at the edges. Furthermore, this architecture utilizes a feature augmentation module to optimize and refine the presentation of attributes. The shallowfakes dataset (CASIA, COVERAGE, COLUMBIA, NIST16) and deepfake dataset Faceforensics++ (FF++) underwent thorough testing to demonstrate their outstanding ability to extract features and their superior performance compared to other baseline models. The AUC score achieved an astounding 99%. The model is superior in comparison and easily outperforms the existing state-of-the-art (SoTA) models.
- Abstract(参考訳): マルチメディアの信頼性は、高度な画像操作ローカライゼーション(IML)技術によってますます評価され、その結果、IMLフィールドが出現している。
有効な操作モデルは、操作された部分と正当な部分の間の非意味的な差分の特徴を抽出し、アーティファクトを利用する必要がある。
これは2つの領域間の直接比較を必要とする。
と。
現在のモデルでは、手作りの特徴に基づく機能アプローチ、畳み込みニューラルネットワーク(CNN)、あるいは両方を組み合わせたハイブリッドアプローチが採用されている。
ハンドクラフト機能アプローチは事前にタンパリングを前提としており、それによって様々なタンパ処理の処理効率が制限されるが、CNNはアーティファクトに対処するには不十分なセマンティック情報をキャプチャする。
これらの制約に対処するため,従来のCNN機能と手動で設計した特徴雑音を統合するデュアルブランチモデルを開発した。
このモデルはデュアルブランチ戦略を採用しており、一方のブランチはノイズ特性を統合し、もう一方のブランチは階層的なConvNextモジュールを使用してRGB機能を統合する。
さらに、エッジ監視損失を利用して境界操作情報を取得し、エッジの正確な位置決めを行う。
さらに、この機能拡張モジュールを使用して属性の表示を最適化し、洗練する。
shallowfakesデータセット (CASIA, COVERAGE, COLUMBIA, NIST16) とディープフェイクデータセット Faceforensics++ (FF++) は、他のベースラインモデルと比較して特徴と優れたパフォーマンスを抽出する優れた能力を示すために、徹底的なテストを実施した。
AUCの得点は99%だった。
このモデルは比較において優れており、既存の最先端モデル(SoTA)よりも容易に優れている。
関連論文リスト
- Tex-ViT: A Generalizable, Robust, Texture-based dual-branch cross-attention deepfake detector [15.647035299476894]
Tex-ViT (Texture-Vision Transformer)は、ResNetと視覚変換器を組み合わせることでCNN機能を強化する。
このモデルは従来のResNet機能と、各ダウンサンプリング操作の前にResNetのセクションで並列に動作するテクスチャモジュールを組み合わせる。
これは特に、特徴写像相関を抽出するグローバルテクスチャモジュールの改善に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-29T20:26:27Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection [6.367999777464464]
マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
論文 参考訳(メタデータ) (2024-06-19T09:26:22Z) - Multi-scale Quaternion CNN and BiGRU with Cross Self-attention Feature Fusion for Fault Diagnosis of Bearing [5.3598912592106345]
深層学習は断層診断(FD)に著しい進歩をもたらした
マルチスケール畳み込み畳み込みニューラルネットワーク(MQCNN)、双方向ゲートリカレントユニット(BiG)、クロス自己注意機能融合(CSAFF)を統合した新しいFDモデルを提案する。
論文 参考訳(メタデータ) (2024-05-25T07:55:02Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - Dynamic Dual Sampling Module for Fine-Grained Semantic Segmentation [27.624291416260185]
動的親和性モデリングを行い,意味的コンテキストを局所的な詳細に伝達する動的デュアルサンプリングモジュール(DDSM)を提案する。
City と Camvid のデータセットによる実験結果から,提案手法の有効性と有効性について検証した。
論文 参考訳(メタデータ) (2021-05-25T04:25:47Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Eigen-CAM: Class Activation Map using Principal Components [1.2691047660244335]
この論文は、解釈可能で堅牢で透明なモデルに対する需要の増加に対応するために、従来の考え方に基づいている。
提案したEigen-CAMは、畳み込み層から学習した特徴/表現の基本的なコンポーネントを計算し、視覚化する。
論文 参考訳(メタデータ) (2020-08-01T17:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。