論文の概要: Swin Transformer for Robust Differentiation of Real and Synthetic Images: Intra- and Inter-Dataset Analysis
- arxiv url: http://arxiv.org/abs/2409.04734v1
- Date: Sat, 7 Sep 2024 06:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 21:01:36.876633
- Title: Swin Transformer for Robust Differentiation of Real and Synthetic Images: Intra- and Inter-Dataset Analysis
- Title(参考訳): 実画像と合成画像のロバスト識別のためのスイム変換器:データ内およびデータ間解析
- Authors: Preetu Mehta, Aman Sagar, Suchi Kumari,
- Abstract要約: 本研究では,自然画像と合成画像の正確な識別のためのSwin Transformerモデルを提案する。
モデルの性能は、3つの異なるデータセットにわたるデータセット内およびデータセット間テストによって評価された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: \textbf{Purpose} This study aims to address the growing challenge of distinguishing computer-generated imagery (CGI) from authentic digital images in the RGB color space. Given the limitations of existing classification methods in handling the complexity and variability of CGI, this research proposes a Swin Transformer-based model for accurate differentiation between natural and synthetic images. \textbf{Methods} The proposed model leverages the Swin Transformer's hierarchical architecture to capture local and global features crucial for distinguishing CGI from natural images. The model's performance was evaluated through intra-dataset and inter-dataset testing across three distinct datasets: CiFAKE, JSSSTU, and Columbia. The datasets were tested individually (D1, D2, D3) and in combination (D1+D2+D3) to assess the model's robustness and domain generalization capabilities. \textbf{Results} The Swin Transformer-based model demonstrated high accuracy, consistently achieving a range of 97-99\% across all datasets and testing scenarios. These results confirm the model's effectiveness in detecting CGI, showcasing its robustness and reliability in both intra-dataset and inter-dataset evaluations. \textbf{Conclusion} The findings of this study highlight the Swin Transformer model's potential as an advanced tool for digital image forensics, particularly in distinguishing CGI from natural images. The model's strong performance across multiple datasets indicates its capability for domain generalization, making it a valuable asset in scenarios requiring precise and reliable image classification.
- Abstract(参考訳): この研究は、コンピュータ生成画像(CGI)とRGBカラー空間の真のデジタル画像とを区別することの難しさに対処することを目的としている。
本研究は,CGIの複雑さと変動性を扱う既存の分類手法の限界を考慮し,自然画像と合成画像の正確な識別のためのスウィントランスフォーマーモデルを提案する。
提案したモデルは、Swin Transformerの階層アーキテクチャを利用して、CGIと自然画像の区別に不可欠なローカルおよびグローバルな特徴をキャプチャする。
モデルの性能は、CiFAKE、JSSSTU、Columbiaの3つの異なるデータセットでデータセット内およびデータセット間テストによって評価された。
データセットを個別に(D1,D2,D3)、(D1+D2+D3)と組み合わせて、モデルの堅牢性とドメインの一般化能力を評価した。
Swin Transformerベースのモデルは高い精度を示し、すべてのデータセットとテストシナリオで97-99\%の範囲を一貫して達成した。
これらの結果は,CGIの検出におけるモデルの有効性を確認し,その堅牢性と信頼性をデータセット内およびデータセット間評価で示す。
この研究の結果は、特にCGIと自然画像の区別において、デジタル画像鑑定のための高度なツールとしてのSwin Transformerモデルの可能性を強調した。
複数のデータセットにまたがるモデルの性能は、ドメインの一般化の能力を示しているため、正確で信頼性の高い画像分類を必要とするシナリオでは貴重な資産である。
関連論文リスト
- Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Cross-Dataset-Robust Method for Blind Real-World Image Quality
Assessment [13.00611103494356]
頑健なブラインド画像品質評価(BIQA)手法は、堅牢なトレーニング戦略、大規模な実世界のデータセット、強力なバックボーンという3つの側面に基づいて設計されている。
その後、1000,000のイメージペアと擬似ラベルを持つ大規模な実世界の画像データセットを提案し、最終的なデータセット-ロバストモデルのトレーニングを行う。
論文 参考訳(メタデータ) (2023-09-26T11:57:12Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - T-ADAF: Adaptive Data Augmentation Framework for Image Classification
Network based on Tensor T-product Operator [0.0]
本稿ではテンソルT-Product Operatorに基づくAdaptive Data Augmentation Frameworkを提案する。
1つの画像データを3倍にし、これら3つの画像から結果を得る。
数値実験により、我々のデータ拡張フレームワークは、元のニューラルネットワークモデルの性能を2%向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-07T08:30:44Z) - GLFF: Global and Local Feature Fusion for AI-synthesized Image Detection [29.118321046339656]
画像全体から複数スケールのグローバルな特徴と、AI合成画像検出のための情報パッチからの洗練されたローカル特徴を組み合わせることで、リッチで差別的な表現を学習するフレームワークを提案する。
GLFFは、マルチスケールの意味的特徴を抽出するグローバルブランチと、詳細なローカルアーティファクト抽出のための情報パッチを選択するローカルブランチの2つのブランチから情報を抽出する。
論文 参考訳(メタデータ) (2022-11-16T02:03:20Z) - Stacking Ensemble Learning in Deep Domain Adaptation for Ophthalmic
Image Classification [61.656149405657246]
ドメイン適応は、十分なラベルデータを取得することが困難な画像分類タスクに有効である。
本稿では,3つのドメイン適応手法を拡張することで,アンサンブル学習を積み重ねるための新しい手法SELDAを提案する。
Age-Related Eye Disease Study (AREDS)ベンチマーク眼科データセットを用いた実験結果から,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2022-09-27T14:19:00Z) - High-resolution semantically-consistent image-to-image translation [0.0]
本稿では,スタイル変換フェーズにおける画像のセマンティック一貫性と画素単位の品質を保った教師なし領域適応モデルを提案する。
提案モデルでは,SemI2Iモデルと比較してかなりの性能向上を示し,最先端のCyCADAモデルと同様の結果を得た。
論文 参考訳(メタデータ) (2022-09-13T19:08:30Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Multi-Spectral Image Synthesis for Crop/Weed Segmentation in Precision
Farming [3.4788711710826083]
本稿では, 精密農業における作物・雑草の分枝化問題に適用し, 共通データ増分法に関する代替手法を提案する。
我々は、最も関連性の高いオブジェクトクラス(作物や雑草)を合成されたクラスに置き換えることで、半人工的なサンプルを作成する。
RGBデータに加えて、近赤外(NIR)情報も考慮し、4つのチャネルマルチスペクトル合成画像を生成する。
論文 参考訳(メタデータ) (2020-09-12T08:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。