論文の概要: PDC-ViT : Source Camera Identification using Pixel Difference Convolution and Vision Transformer
- arxiv url: http://arxiv.org/abs/2501.16227v1
- Date: Mon, 27 Jan 2025 17:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:10.569341
- Title: PDC-ViT : Source Camera Identification using Pixel Difference Convolution and Vision Transformer
- Title(参考訳): PDC-ViT : 画素差分畳み込みと視覚変換器を用いた音源カメラ同定
- Authors: Omar Elharrouss, Younes Akbari, Noor Almaadeed, Somaya Al-Maadeed, Fouad Khelifi, Ahmed Bouridane,
- Abstract要約: 本稿では,画素差分畳み込み(PDC)とビジョントランスフォーマーネットワーク(ViT)を融合した,新たな画素ベースの画像認識手法を提案する。
PDCはAngular PDC (APDC) と Radial PDC (RPDC) を利用して特徴抽出のバックボーンとして機能する
分類ネットワークのトレーニングにイメージパッチを直接利用する従来の手法とは異なり、提案手法はビジョントランスフォーマーネットワークにPDC機能を独自に入力する。
- 参考スコア(独自算出の注目度): 4.495664129720769
- License:
- Abstract: Source camera identification has emerged as a vital solution to unlock incidents involving critical cases like terrorism, violence, and other criminal activities. The ability to trace the origin of an image/video can aid law enforcement agencies in gathering evidence and constructing the timeline of events. Moreover, identifying the owner of a certain device narrows down the area of search in a criminal investigation where smartphone devices are involved. This paper proposes a new pixel-based method for source camera identification, integrating Pixel Difference Convolution (PDC) with a Vision Transformer network (ViT), and named PDC-ViT. While the PDC acts as the backbone for feature extraction by exploiting Angular PDC (APDC) and Radial PDC (RPDC). These techniques enhance the capability to capture subtle variations in pixel information, which are crucial for distinguishing between different source cameras. The second part of the methodology focuses on classification, which is based on a Vision Transformer network. Unlike traditional methods that utilize image patches directly for training the classification network, the proposed approach uniquely inputs PDC features into the Vision Transformer network. To demonstrate the effectiveness of the PDC-ViT approach, it has been assessed on five different datasets, which include various image contents and video scenes. The method has also been compared with state-of-the-art source camera identification methods. Experimental results demonstrate the effectiveness and superiority of the proposed system in terms of accuracy and robustness when compared to its competitors. For example, our proposed PDC-ViT has achieved an accuracy of 94.30%, 84%, 94.22% and 92.29% using the Vision dataset, Daxing dataset, Socrates dataset and QUFVD dataset, respectively.
- Abstract(参考訳): ソースカメラの識別は、テロや暴力、その他の犯罪行為といった重大な事件を解き明かす重要な解決策として浮上している。
画像/ビデオの起源を追跡する能力は、証拠収集やイベントのタイムライン構築において、法執行機関の助けになる。
さらに、特定のデバイスの所有者を特定することは、スマートフォンデバイスが関与している刑事捜査において、検索の領域を狭める。
そこで本研究では,新しい画素ベースの画像認識手法を提案し,画像差分変換(PDC)とビジョントランスフォーマーネットワーク(ViT)を統合し,PDC-ViTと命名した。
PDCはAngular PDC (APDC) と Radial PDC (RPDC) を利用して特徴抽出のバックボーンとして機能する。
これらの技術は、異なるソースカメラの区別に不可欠である画素情報の微妙な変化を捉える能力を高める。
方法論の第2部は、ビジョントランスフォーマーネットワークに基づく分類に焦点を当てている。
分類ネットワークのトレーニングにイメージパッチを直接利用する従来の手法とは異なり、提案手法はビジョントランスフォーマーネットワークにPDC機能を独自に入力する。
PDC-ViTアプローチの有効性を示すため、様々な画像コンテンツや映像シーンを含む5つの異なるデータセットで評価されている。
この手法は、最先端のソースカメラ識別法と比較されている。
実験により,提案システムの有効性と優位性を,競合他社と比較して精度と堅牢性の観点から検証した。
例えば、提案したPDC-ViTは、Visionデータセット、Daxingデータセット、Socratesデータセット、QUFVDデータセットを使用して、94.30%、84%、94.22%、92.29%の精度を達成した。
関連論文リスト
- Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for
Place Recognition [11.206532393178385]
本稿では,マルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。
位置認識性能を向上させるために,マルチビューカメラとLiDARデータを効果的に利用することができる。
論文 参考訳(メタデータ) (2023-11-06T15:39:48Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Scene Change Detection Using Multiscale Cascade Residual Convolutional
Neural Networks [0.0]
シーン変化検出は、デジタル画像の画素を前景と背景領域に分割する処理問題である。
本研究では,Residual Processing Moduleを統合した畳み込みニューラルネットワークを用いた新しいマルチスケールResidual Processing Moduleを提案する。
2つの異なるデータセットで実施された実験は、提案手法の全体的な有効性をサポートし、それぞれが$boldsymbol0.9622$と$boldsymbol0.9664$ over Change Detection 2014とPetrobrasROUTESデータセットの全体的な有効性を達成する。
論文 参考訳(メタデータ) (2022-12-20T16:48:51Z) - Camera Alignment and Weighted Contrastive Learning for Domain Adaptation
in Video Person ReID [17.90248359024435]
人物再識別システム(ReID)は、大規模な完全ラベル画像データセットでトレーニングした場合、高い精度を達成することができる。
様々な運用状況(例えば、カメラの視点や照明など)に関連したドメインシフトは、パフォーマンスの大幅な低下に繋がる可能性がある。
本稿では、ビデオベースのReIDのための教師なしドメイン適応(UDA)に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-07T15:32:56Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - ViTransPAD: Video Transformer using convolution and self-attention for
Face Presentation Attack Detection [15.70621878093133]
顔の提示攻撃検出(PAD)は,顔の生体認証システムに対するスプーフ攻撃を防ぐ重要な手段である。
PADに対する畳み込みニューラルネットワーク(CNN)に基づく多くの研究は、文脈を考慮せずに画像レベルのバイナリタスクとして問題を定式化している。
本研究では,フレーム内の短距離の局所的細部のみに焦点をあてるだけでなく,フレーム上の長距離依存性をキャプチャできる映像ベースの顔PAD(ViTransPAD)を提案する。
論文 参考訳(メタデータ) (2022-03-03T08:23:20Z) - Camera-Tracklet-Aware Contrastive Learning for Unsupervised Vehicle
Re-Identification [4.5471611558189124]
車両識別ラベルのないマルチカメラ・トラックレット情報を用いたカメラ・トラックレット対応コントラスト学習(CTACL)を提案する。
提案したCTACLは、全車両画像(全車両画像)を複数のカメラレベルの画像に分割し、コントラスト学習を行う。
本稿では,ビデオベースおよび画像ベース車両のRe-IDデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-09-14T02:12:54Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。