論文の概要: ANID: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance
- arxiv url: http://arxiv.org/abs/2412.17632v1
- Date: Mon, 23 Dec 2024 15:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:51.770190
- Title: ANID: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance
- Title(参考訳): ANID:我々はどこまで遠いのか?マルチモーダル誘導によるAI合成画像と自然画像の相違評価
- Authors: Renyang Liu, Ziyu Lyu, Wei Zhou, See-Kiong Ng,
- Abstract要約: AI-Natural Image Discrepancy Evaluationベンチマークを導入し、重要な問題に対処する。
大規模マルチモーダルデータセットであるDNAI(Distinguishing Natural and AI- generated Images)データセットを構築した。
粒度評価フレームワークは,5つの重要な領域にわたるDNAIデータセットを包括的に評価する。
- 参考スコア(独自算出の注目度): 19.760989919485894
- License:
- Abstract: In the rapidly evolving field of Artificial Intelligence Generated Content (AIGC), one of the key challenges is distinguishing AI-synthesized images from natural images. Despite the remarkable capabilities of advanced AI generative models in producing visually compelling images, significant discrepancies remain when these images are compared to natural ones. To systematically investigate and quantify these discrepancies, we introduce an AI-Natural Image Discrepancy Evaluation benchmark aimed at addressing the critical question: \textit{how far are AI-generated images (AIGIs) from truly realistic images?} We have constructed a large-scale multimodal dataset, the Distinguishing Natural and AI-generated Images (DNAI) dataset, which includes over 440,000 AIGI samples generated by 8 representative models using both unimodal and multimodal prompts, such as Text-to-Image (T2I), Image-to-Image (I2I), and Text \textit{vs.} Image-to-Image (TI2I). Our fine-grained assessment framework provides a comprehensive evaluation of the DNAI dataset across five key dimensions: naive visual feature quality, semantic alignment in multimodal generation, aesthetic appeal, downstream task applicability, and coordinated human validation. Extensive evaluation results highlight significant discrepancies across these dimensions, underscoring the necessity of aligning quantitative metrics with human judgment to achieve a holistic understanding of AI-generated image quality. Code is available at \href{https://github.com/ryliu68/ANID}{https://github.com/ryliu68/ANID}.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)の急速に発展している分野では、AI合成画像と自然画像の区別が重要な課題である。
視覚的に魅力的な画像を生成するための高度なAI生成モデルの顕著な能力にもかかわらず、これらの画像が自然なものと比較された場合、大きな相違は残る。
これらの不一致を体系的に調査し、定量化するために、批判的な問題に対処するAI-Natural Image Discrepancy Evaluationベンチマークを導入する。
このデータセットには、Text-to-Image (T2I)、 Image-to-Image (I2I)、Text \textit{vsといった8つの代表モデルから生成される440,000以上のAIGIサンプルが含まれている。
Image-to-Image (TI2I)を参照。
本フレームワークは, 視覚的特徴品質, マルチモーダル生成における意味的アライメント, 美的魅力, 下流タスク適用性, 調整された人間の検証の5つの重要な領域にわたるDNAIデータセットの包括的評価を行う。
広範囲な評価結果は、AI生成画像の品質の全体的理解を達成するために、定量的メトリクスを人間の判断と整合させることの必要性を強調して、これらの次元間での大きな相違点を浮き彫りにしている。
コードは \href{https://github.com/ryliu68/ANID}{https://github.com/ryliu68/ANID} で公開されている。
関連論文リスト
- Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI) [5.8695051911828555]
最近のAI生成画像検出(AGID)には、CNN検出、NPR、DM画像検出、フェイク画像検出、DIRE、LASTED、GAN画像検出、AIDE、SP、DRCT、RINE、OCC-CLIP、De-Fake、Deep Fake Detectionが含まれる。
本稿では,テキスト・ツー・イメージ・モデルによって生成される130K画像からなるベンチマークであるVisual Counter Turing Test (VCT2)を紹介する。
VCT$2$ベンチマークで前述のAGID技術の性能を評価し、AI生成の検出におけるその非効率性を強調した。
論文 参考訳(メタデータ) (2024-11-24T06:03:49Z) - A Sanity Check for AI-generated Image Detection [49.08585395873425]
本稿では,AIによる画像検出の課題が解決されたかどうかの検査を行う。
既存の手法の一般化を定量化するために,Chameleonデータセット上で,既製のAI生成画像検出器を9つ評価した。
複数の専門家が同時に視覚的アーチファクトやノイズパターンを抽出するAI生成画像検出装置(AID)を提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - AIGCOIQA2024: Perceptual Quality Assessment of AI Generated Omnidirectional Images [70.42666704072964]
我々はAI生成の全方位画像IQAデータベースAIIGCOIQA2024を構築した。
3つの視点から人間の視覚的嗜好を評価するために、主観的IQA実験を行った。
我々は,データベース上での最先端IQAモデルの性能を評価するためのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-04-01T10:08:23Z) - Exploring the Naturalness of AI-Generated Images [59.04528584651131]
我々は、AI生成画像の視覚的自然性をベンチマークし、評価する第一歩を踏み出した。
本研究では,人間の評価を整列するAGIの自然性を自動予測するジョイント・オブジェクト・イメージ・ナチュラルネス評価器(JOINT)を提案する。
その結果,JOINTは自然性評価において,より主観的に一貫した結果を提供するために,ベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-12-09T06:08:09Z) - PKU-I2IQA: An Image-to-Image Quality Assessment Database for AI
Generated Images [1.6031185986328562]
我々はPKU-I2IQAという人間の知覚に基づく画像から画像へのAIGCIQAデータベースを構築した。
本研究では,非参照画像品質評価法に基づくNR-AIGCIQAとフル参照画像品質評価法に基づくFR-AIGCIQAの2つのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T05:53:03Z) - Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images [67.18010640829682]
我々は,AI生成画像がテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことを示す。
検索モデルのトレーニングデータにAI生成画像を含めると、目に見えない関連性バイアスが増す。
本研究では,目に見えない関連バイアスを軽減するための効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:22:58Z) - CIFAKE: Image Classification and Explainable Identification of
AI-Generated Synthetic Images [7.868449549351487]
本稿では,コンピュータビジョンによるAI生成画像の認識能力を高めることを提案する。
写真が本物かAIによって生成されるかに関して、バイナリ分類問題として存在する2つのデータセット。
本研究では,畳み込みニューラルネットワーク(CNN)を用いて画像をリアルとフェイクの2つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-03-24T16:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。