論文の概要: Swin Transformer for Robust CGI Images Detection: Intra- and Inter-Dataset Analysis across Multiple Color Spaces
- arxiv url: http://arxiv.org/abs/2505.16253v1
- Date: Thu, 22 May 2025 05:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.06239
- Title: Swin Transformer for Robust CGI Images Detection: Intra- and Inter-Dataset Analysis across Multiple Color Spaces
- Title(参考訳): ロバストなCGI画像検出のためのスイム変換器:複数色空間におけるデータ内およびデータ間解析
- Authors: Preeti Mehta, Aman Sagar, Suchi Kumari,
- Abstract要約: 本研究の目的は,コンピュータ生成画像(CGI)と実際のデジタル画像とを区別することである。
自然画像と合成画像の正確な識別のためのSwin Transformerベースのモデルを提案する。
モデルの性能はすべてのカラースキームでテストされ、RGBカラースキームはデータセットごとに最も正確である。
- 参考スコア(独自算出の注目度): 1.024113475677323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study aims to address the growing challenge of distinguishing computer-generated imagery (CGI) from authentic digital images across three different color spaces; RGB, YCbCr, and HSV. Given the limitations of existing classification methods in handling the complexity and variability of CGI, this research proposes a Swin Transformer based model for accurate differentiation between natural and synthetic images. The proposed model leverages the Swin Transformer's hierarchical architecture to capture local and global features for distinguishing CGI from natural images. Its performance was assessed through intra- and inter-dataset testing across three datasets: CiFAKE, JSSSTU, and Columbia. The model was evaluated individually on each dataset (D1, D2, D3) and on the combined datasets (D1+D2+D3) to test its robustness and domain generalization. To address dataset imbalance, data augmentation techniques were applied. Additionally, t-SNE visualization was used to demonstrate the feature separability achieved by the Swin Transformer across the selected color spaces. The model's performance was tested across all color schemes, with the RGB color scheme yielding the highest accuracy for each dataset. As a result, RGB was selected for domain generalization analysis and compared with other CNN-based models, VGG-19 and ResNet-50. The comparative results demonstrate the proposed model's effectiveness in detecting CGI, highlighting its robustness and reliability in both intra-dataset and inter-dataset evaluations. The findings of this study highlight the Swin Transformer model's potential as an advanced tool for digital image forensics, particularly in distinguishing CGI from natural images. The model's strong performance indicates its capability for domain generalization, making it a valuable asset in scenarios requiring precise and reliable image classification.
- Abstract(参考訳): 本研究では,コンピュータ生成画像(CGI)とRGB,YCbCr,HSVの3つの異なる色空間における真のデジタル画像とを区別することの課題に対処することを目的とする。
本研究は,CGIの複雑さと変動性を扱う既存の分類手法の限界を考慮し,自然画像と合成画像の正確な識別のためのSwin Transformerに基づくモデルを提案する。
提案モデルでは,Swin Transformerの階層構造を利用して,CGIと自然画像の区別を行う。
そのパフォーマンスは、CiFAKE、JSSSTU、Columbiaの3つのデータセットでデータセット内およびデータセット間のテストを通じて評価された。
モデルは各データセット(D1,D2,D3)と組み合わせデータセット(D1+D2+D3)で個別に評価され、堅牢性とドメインの一般化をテストする。
データセットの不均衡に対処するため、データ拡張技術を適用した。
さらに、t-SNE可視化は、選択した色空間にわたってSwin Transformerによって達成された特徴分離性を示すために使用された。
モデルの性能はすべてのカラースキームでテストされ、RGBカラースキームはデータセットごとに最も正確である。
その結果、ドメイン一般化分析のためにRGBが選択され、他のCNNベースのモデルであるVGG-19やResNet-50と比較された。
比較結果は,提案モデルがCGIの検出に有効であることを示し,データベース内およびデータセット間の評価において,その堅牢性と信頼性を強調した。
本研究は,Swin Transformerモデルがデジタル画像鑑定の高度なツールとしての可能性,特に自然画像とCGIを区別する可能性を明らかにするものである。
このモデルの強い性能は、ドメインの一般化の能力を示し、正確で信頼性の高い画像分類を必要とするシナリオにおいて貴重な資産となる。
関連論文リスト
- Semantic Scene Completion with Multi-Feature Data Balancing Network [5.3431413737671525]
RGBおよび深度データ(F-TSDF)入力のためのデュアルヘッドモデルを提案する。
プリアクティベーション残余モジュールにおけるアイデンティティ変換を伴うハイブリッドエンコーダデコーダアーキテクチャは、F-TSDF内の多様な信号を効果的に管理する。
我々は,RGB特徴融合戦略を評価し,2次元RGB特徴量と重み付きクロスエントロピーを併用して3次元SSC予測を行う。
論文 参考訳(メタデータ) (2024-12-02T12:12:21Z) - Swin Transformer for Robust Differentiation of Real and Synthetic Images: Intra- and Inter-Dataset Analysis [0.0]
本研究では,自然画像と合成画像の正確な識別のためのSwin Transformerモデルを提案する。
モデルの性能は、3つの異なるデータセットにわたるデータセット内およびデータセット間テストによって評価された。
論文 参考訳(メタデータ) (2024-09-07T06:43:17Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers [48.74331852418905]
直接画像からグラフへの変換は、1つのモデルで物体の検出と関係予測を解くことを伴う課題である。
このタスクの複雑さのため、多くのドメインで大規模なトレーニングデータセットはまれであり、ディープラーニングメソッドのトレーニングを困難にしている。
画像-グラフ変換器のクロスドメインおよびクロス次元学習を可能にする一連の手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - T-ADAF: Adaptive Data Augmentation Framework for Image Classification
Network based on Tensor T-product Operator [0.0]
本稿ではテンソルT-Product Operatorに基づくAdaptive Data Augmentation Frameworkを提案する。
1つの画像データを3倍にし、これら3つの画像から結果を得る。
数値実験により、我々のデータ拡張フレームワークは、元のニューラルネットワークモデルの性能を2%向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-07T08:30:44Z) - Unsupervised Domain Adaptation with Histogram-gated Image Translation
for Delayered IC Image Analysis [2.720699926154399]
Histogram-gated Image Translation (HGIT)は、特定のソースデータセットからターゲットデータセットのドメインに変換する、教師なしのドメイン適応フレームワークである。
提案手法は,報告したドメイン適応手法と比較して最高の性能を達成し,完全教師付きベンチマークに適当に近い。
論文 参考訳(メタデータ) (2022-09-27T15:53:22Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Multi-Spectral Image Synthesis for Crop/Weed Segmentation in Precision
Farming [3.4788711710826083]
本稿では, 精密農業における作物・雑草の分枝化問題に適用し, 共通データ増分法に関する代替手法を提案する。
我々は、最も関連性の高いオブジェクトクラス(作物や雑草)を合成されたクラスに置き換えることで、半人工的なサンプルを作成する。
RGBデータに加えて、近赤外(NIR)情報も考慮し、4つのチャネルマルチスペクトル合成画像を生成する。
論文 参考訳(メタデータ) (2020-09-12T08:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。