論文の概要: ImagiNet: A Multi-Content Benchmark for Synthetic Image Detection
- arxiv url: http://arxiv.org/abs/2407.20020v3
- Date: Tue, 14 Jan 2025 12:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:26:30.973122
- Title: ImagiNet: A Multi-Content Benchmark for Synthetic Image Detection
- Title(参考訳): ImagiNet: 合成画像検出のためのマルチコンテンツベンチマーク
- Authors: Delyan Boychev, Radostin Cholakov,
- Abstract要約: 私たちは、写真、絵画、顔、雑多な4つのカテゴリにまたがる200万のサンプルのデータセットであるImagiNetを紹介します。
ImagiNetの合成画像はオープンソースとプロプライエタリの両方のジェネレータで作成され、各コンテントタイプの実際の画像はパブリックデータセットから収集される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent generative models produce images with a level of authenticity that makes them nearly indistinguishable from real photos and artwork. Potential harmful use cases of these models, necessitate the creation of robust synthetic image detectors. However, current datasets in the field contain generated images with questionable quality or have examples from one predominant content type which leads to poor generalizability of the underlying detectors. We find that the curation of a balanced amount of high-resolution generated images across various content types is crucial for the generalizability of detectors, and introduce ImagiNet, a dataset of 200K examples, spanning four categories: photos, paintings, faces, and miscellaneous. Synthetic images in ImagiNet are produced with both open-source and proprietary generators, whereas real counterparts for each content type are collected from public datasets. The structure of ImagiNet allows for a two-track evaluation system: i) classification as real or synthetic and ii) identification of the generative model. To establish a strong baseline, we train a ResNet-50 model using a self-supervised contrastive objective (SelfCon) for each track which achieves evaluation AUC of up to 0.99 and balanced accuracy ranging from 86% to 95%, even under conditions that involve compression and resizing. The provided model is generalizable enough to achieve zero-shot state-of-the-art performance on previous synthetic detection benchmarks. We provide ablations to demonstrate the importance of content types and publish code and data.
- Abstract(参考訳): 最近の生成モデルは、実際の写真やアートワークとほとんど区別がつかないような、信頼度の高い画像を生成する。
これらのモデルの潜在的に有害なユースケースは、堅牢な合成画像検出器を作成する必要がある。
しかし、この分野の現在のデータセットには、疑わしい品質の生成された画像が含まれているか、または、主要なコンテンツタイプの例があり、基礎となる検出器の一般化性が低い。
様々なコンテンツタイプにまたがる高解像度画像のバランスの取れた量のキュレーションは、検出器の一般化に不可欠であることが判明し、写真、絵画、顔、雑多な4つのカテゴリにまたがる200KサンプルのデータセットであるImagiNetを紹介した。
ImagiNetの合成画像はオープンソースとプロプライエタリの両方のジェネレータで作成され、各コンテントタイプの実際の画像はパブリックデータセットから収集される。
ImagiNetの構造は、以下の2トラック評価システムを可能にする。
一 実物又は合成物として分類し、
二 生成モデルを特定すること。
強いベースラインを確立するため、圧縮と再サイズを伴う条件下であっても、最大0.99のAUCと86%から95%のバランスの取れた精度を達成できる自己教師付きコントラスト目標(SelfCon)を用いてResNet-50モデルを訓練する。
得られたモデルは、以前の合成検出ベンチマークでゼロショットの最先端性能を達成するのに十分一般化できる。
コンテンツタイプの重要性を実証し、コードとデータを公開するためのアブリケーションを提供します。
関連論文リスト
- Re-assessing ImageNet: How aligned is its single-label assumption with its multi-label nature? [1.4828022319975973]
我々は、ImageNetとその変種であるImageNetV2上で、事前訓練された最先端ディープニューラルネットワーク(DNN)モデルの有効性を分析する。
以上の結果から,これらの報告された減少は,十分な注意が払われていないデータセットの特徴に起因することが示唆された。
この結果は,ベンチマーク中のImageNetデータセットのマルチラベル性を考慮することの重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-12-24T12:55:31Z) - Unbiased General Annotated Dataset Generation [62.04202037186855]
偏りのない一般的な注釈付きデータセット生成フレームワーク(ubGen)を提案する。
本稿では,言語によって定義された非バイアスのセマンティック空間における画像の整合性の観点から,マルチモーダル基盤モデル(例えばCLIP)の利点を活用することを提案する。
実験結果から,手動ラベル付きデータセットや他の合成データセットと比較して,生成した非バイアスデータセットの利用により,一般化能力の安定が図られた。
論文 参考訳(メタデータ) (2024-12-14T13:28:40Z) - Visual Car Brand Classification by Implementing a Synthetic Image Dataset Creation Pipeline [3.524869467682149]
安定拡散を用いた合成画像データセットの自動生成パイプラインを提案する。
YOLOv8を用いて自動境界ボックス検出と合成画像の品質評価を行う。
論文 参考訳(メタデータ) (2024-06-03T07:44:08Z) - ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object [78.58860252442045]
我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。
このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。
我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
論文 参考訳(メタデータ) (2024-03-27T17:23:39Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Explore the Power of Synthetic Data on Few-shot Object Detection [27.26215175101865]
Few-shot Object Detection (FSOD) は、トレーニングのいくつかの例に限って、新しいカテゴリのオブジェクト検出器を拡張することを目的としている。
近年のテキスト・画像生成モデルでは,高品質な画像を生成する上で有望な結果が得られている。
この研究は、最先端のテキスト・ツー・イメージ・ジェネレータから生成された合成画像がFSODタスクにどのように貢献するかを幅広く研究している。
論文 参考訳(メタデータ) (2023-03-23T12:34:52Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - Generative Zero-shot Network Quantization [41.75769117366117]
畳み込みニューラルネットワークは、低レベルの画像生成と復元における多数のトレーニングサンプルから現実的な画像優先度を学習することができる。
また,高レベル画像認識タスクでは,本質的バッチ正規化(bn)統計をトレーニングデータなしで活用することにより,各カテゴリの「現実的」画像をさらに再構築できることを示す。
論文 参考訳(メタデータ) (2021-01-21T04:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。