論文の概要: SAGI: Semantically Aligned and Uncertainty Guided AI Image Inpainting
- arxiv url: http://arxiv.org/abs/2502.06593v2
- Date: Thu, 22 May 2025 18:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.79028
- Title: SAGI: Semantically Aligned and Uncertainty Guided AI Image Inpainting
- Title(参考訳): SAGI: セマンティックにアライメントされ、不確実なAIイメージのインペイント
- Authors: Paschalis Giakoumoglou, Dimitrios Karageorgiou, Symeon Papadopoulos, Panagiotis C. Petrantonakis,
- Abstract要約: SAGI-DはAIが生成する塗り絵の最大かつ最も多様なデータセットである。
実験の結果,セマンティックアライメントは画像の品質と美学を著しく改善することがわかった。
SAGI-Dを使っていくつかの画像法医学的アプローチを訓練すると、ドメイン内の検出性能は平均37.4%向上する。
- 参考スコア(独自算出の注目度): 11.216906046169683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in generative AI have made text-guided image inpainting -- adding, removing, or altering image regions using textual prompts -- widely accessible. However, generating semantically correct photorealistic imagery, typically requires carefully-crafted prompts and iterative refinement by evaluating the realism of the generated content - tasks commonly performed by humans. To automate the generative process, we propose Semantically Aligned and Uncertainty Guided AI Image Inpainting (SAGI), a model-agnostic pipeline, to sample prompts from a distribution that closely aligns with human perception and to evaluate the generated content and discard one that deviates from such a distribution, which we approximate using pretrained Large Language Models and Vision-Language Models. By applying this pipeline on multiple state-of-the-art inpainting models, we create the SAGI Dataset (SAGI-D), currently the largest and most diverse dataset of AI-generated inpaintings, comprising over 95k inpainted images and a human-evaluated subset. Our experiments show that semantic alignment significantly improves image quality and aesthetics, while uncertainty guidance effectively identifies realistic manipulations - human ability to distinguish inpainted images from real ones drops from 74% to 35% in terms of accuracy, after applying our pipeline. Moreover, using SAGI-D for training several image forensic approaches increases in-domain detection performance on average by 37.4% and out-of-domain generalization by 26.1% in terms of IoU, also demonstrating its utility in countering malicious exploitation of generative AI. Code and dataset are available at https://github.com/mever-team/SAGI
- Abstract(参考訳): ジェネレーティブAIの最近の進歩は、テキストプロンプトを使用した画像領域の追加、削除、あるいは変更など、テキスト誘導画像の塗装を広く利用できるようになった。
しかし、セマンティックに正しいフォトリアリスティックな画像を生成するには、通常、人間によって一般的に実行されるタスクである生成されたコンテンツのリアリズムを評価することによって、慎重に作り上げられたプロンプトと反復的な洗練が必要である。
生成プロセスを自動化するために,モデルに依存しないパイプラインであるSemantically Aligned and Uncertainty Guided AI Image Inpainting (SAGI)を提案する。
このパイプラインを複数の最先端のインペイントモデルに適用することにより、現在最大かつ最も多様なAI生成インペイントデータセットであるSAGIデータセット(SAGI-D)を作成します。
実験の結果,意味的アライメントは画像の品質と美学を著しく向上させるが,不確実性ガイダンスは現実的な操作を効果的に識別する。
さらに、いくつかの画像法医学的アプローチのトレーニングにSAGI-Dを使用することで、ドメイン内の検出性能が平均37.4%向上し、ドメイン外一般化が26.1%向上した。
コードとデータセットはhttps://github.com/mever-team/SAGIで公開されている。
関連論文リスト
- COCO-Inpaint: A Benchmark for Image Inpainting Detection and Manipulation Localization [32.26473230517668]
COCOInpaint(ココインペント)は、検出の塗装に特化して設計されたベンチマークである。
6つの最先端塗膜モデルにより生成された高品質な塗膜試料。
258,266枚のインペイント画像による大規模カバレッジと多彩なセマンティック多様性。
論文 参考訳(メタデータ) (2025-04-25T14:04:36Z) - Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。
提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文 参考訳(メタデータ) (2025-02-27T09:37:30Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Detecting Generated Images by Real Images Only [64.12501227493765]
既存の画像検出手法は、生成画像中の視覚的アーティファクトを検出したり、大規模なトレーニングによって、実画像と生成画像の両方から識別的特徴を学習する。
本稿では,新たな視点から生成した画像検出問題にアプローチする。
実画像の共通性を見つけ、特徴空間内の密接な部分空間にマッピングすることで、生成した画像は生成モデルに関係なくサブ空間の外側に投影される。
論文 参考訳(メタデータ) (2023-11-02T03:09:37Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Level Up the Deepfake Detection: a Method to Effectively Discriminate
Images Generated by GAN Architectures and Diffusion Models [0.0]
プリズム画像と偽画像の専用データセットを収集し,ディープフェイク検出・認識タスクについて検討した。
3つの異なるディープフェイク検出および認識タスクを解決するために階層的マルチレベルアプローチが導入された。
実験の結果, いずれの場合も, 97%以上の分類精度が, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-01T16:01:46Z) - Holistic Image Manipulation Detection using Pixel Co-occurrence Matrices [16.224649756613655]
digital image forensicsは、デジタル操作された画像を検出することを目的としている。
文献におけるほとんどの検出方法は、特定の種類の操作を検出することに焦点を当てている。
本稿では,画素共起行列と深層学習を組み合わせることで,改ざん画像を検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-12T17:54:42Z) - Unifying Remote Sensing Image Retrieval and Classification with Robust
Fine-tuning [3.6526118822907594]
新しい大規模トレーニングおよびテストデータセットであるSF300で、リモートセンシングイメージの検索と分類を統一することを目指しています。
本研究では,ImageNetの事前学習ベースラインと比較して,9つのデータセットの検索性能と分類性能を体系的に向上させることを示す。
論文 参考訳(メタデータ) (2021-02-26T11:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。