論文の概要: A Robust Image Forensic Framework Utilizing Multi-Colorspace Enriched Vision Transformer for Distinguishing Natural and Computer-Generated Images
- arxiv url: http://arxiv.org/abs/2308.07279v2
- Date: Sat, 16 Nov 2024 17:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:31.276933
- Title: A Robust Image Forensic Framework Utilizing Multi-Colorspace Enriched Vision Transformer for Distinguishing Natural and Computer-Generated Images
- Title(参考訳): マルチカラー化ビジョン変換器を用いた自然画像とコンピュータ画像の識別のためのロバスト画像法枠組
- Authors: Manjary P. Gangan, Anoop Kadan, Lajish V L,
- Abstract要約: 本稿では、リッチな視覚変換器を利用して、自然画像と生成画像の区別を行う頑健な法科学分類手法を提案する。
提案手法は,各クラスの評価において,94.25%の検定精度と有意な性能向上を示す。
この研究は、自然な画像と生成された画像を区別する汎用的でレジリエントなソリューションを提供することにより、画像鑑定の最先端を推し進める。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The digital image forensics based research works in literature classifying natural and computer generated images primarily focuses on binary tasks. These tasks typically involve the classification of natural images versus computer graphics images only or natural images versus GAN generated images only, but not natural images versus both types of generated images simultaneously. Furthermore, despite the support of advanced convolutional neural networks and transformer based architectures that can achieve impressive classification accuracies for this forensic classification task of distinguishing natural and computer generated images, these models are seen to fail over the images that have undergone post-processing operations intended to deceive forensic algorithms, such as JPEG compression, Gaussian noise addition, etc. In this digital image forensic based work to distinguish between natural and computer-generated images encompassing both computer graphics and GAN generated images, we propose a robust forensic classifier framework leveraging enriched vision transformers. By employing a fusion approach for the networks operating in RGB and YCbCr color spaces, we achieve higher classification accuracy and robustness against the post-processing operations of JPEG compression and addition of Gaussian noise. Our approach outperforms baselines, demonstrating 94.25% test accuracy with significant performance gains in individual class accuracies. Visualizations of feature representations and attention maps reveal improved separability as well as improved information capture relevant to the forensic task. This work advances the state-of-the-art in image forensics by providing a generalized and resilient solution to distinguish between natural and generated images.
- Abstract(参考訳): デジタル画像法医学に基づく研究は、自然とコンピュータが生成した画像を分類する文献で主にバイナリータスクに焦点を当てている。
これらのタスクは、通常、自然画像とコンピュータグラフィックス画像と、自然画像と、GAN生成画像とを区別するが、自然画像と、両方の生成画像とを同時に分類しない。
さらに、進化的畳み込みニューラルネットワークとトランスフォーマーベースアーキテクチャのサポートにより、自然画像とコンピュータ画像の区別という、この法医学的分類タスクにおいて印象的な分類精度を達成できるにもかかわらず、これらのモデルは、JPEG圧縮やガウス雑音付加などの法医学的アルゴリズムを欺いた後処理操作を行う画像に対して失敗する。
本稿では,コンピュータグラフィックスとGAN生成画像の両方を含む自然画像とコンピュータ生成画像とを区別するデジタル画像法学に基づく手法を提案する。
RGB と YCbCr 色空間で動作するネットワークに対する融合手法を用いることで,JPEG 圧縮の後処理とガウス雑音の付加に対して,高い分類精度とロバスト性を実現する。
提案手法は,各クラスの評価において,94.25%の検定精度と有意な性能向上を示す。
特徴表現とアテンションマップの可視化は、分離性の向上と、法医学的タスクに関連する情報キャプチャの改善を明らかにしている。
この研究は、自然な画像と生成された画像を区別する汎用的でレジリエントなソリューションを提供することで、画像鑑定の最先端を推し進める。
関連論文リスト
- Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Towards Exploring Fairness in Visual Transformer based Natural and GAN Image Detection Systems [0.0]
本研究では、自然画像とGAN画像を分類する視覚変換器に基づく画像法科学アルゴリズムのバイアスについて検討する。
提案研究は, 性別, 人種, 感情, 交叉領域の偏見を解析するために, 偏見評価コーパスを取得する。
また、画像圧縮がモデルバイアスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-10-18T16:13:22Z) - Joint Learning of Deep Texture and High-Frequency Features for
Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。
セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。
原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文 参考訳(メタデータ) (2022-09-07T17:30:40Z) - Distinguishing Natural and Computer-Generated Images using
Multi-Colorspace fused EfficientNet [0.0]
実世界の画像鑑定のシナリオでは、画像生成のあらゆるカテゴリを考えることが不可欠である。
3つの効率ネットワークを並列に融合させることにより、マルチカラー融合効率ネットモデルを提案する。
我々のモデルは、精度、後処理に対する堅牢性、および他のデータセットに対する一般化性の観点から、ベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-10-18T15:55:45Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - CNN Detection of GAN-Generated Face Images based on Cross-Band
Co-occurrences Analysis [34.41021278275805]
最終世代のGANモデルでは、自然と視覚的に区別できない合成画像を生成することができる。
本稿では、スペクトル帯域間の不整合を利用して、自然画像とGAN生成物を区別する手法を提案する。
論文 参考訳(メタデータ) (2020-07-25T10:55:04Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。