論文の概要: D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance
- arxiv url: http://arxiv.org/abs/2412.17632v4
- Date: Mon, 11 Aug 2025 09:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:51.552333
- Title: D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance
- Title(参考訳): D-Judge:我々はどこまで遠いのか?マルチモーダル誘導によるAI合成画像と自然画像の相違を評価する
- Authors: Renyang Liu, Ziyu Lyu, Wei Zhou, See-Kiong Ng,
- Abstract要約: 5000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダルデータセットD-ANIを構築した。
次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
- 参考スコア(独自算出の注目度): 19.760989919485894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving field of Artificial Intelligence Generated Content (AIGC), a central challenge is distinguishing AI-synthesized images from natural ones. Despite the impressive capabilities of advanced generative models in producing visually compelling images, significant discrepancies remain when compared to natural images. To systematically investigate and quantify these differences, we construct a large-scale multimodal dataset, D-ANI, comprising 5,000 natural images and over 440,000 AIGI samples generated by nine representative models using both unimodal and multimodal prompts, including Text-to-Image (T2I), Image-to-Image (I2I), and Text-and-Image-to-Image (TI2I). We then introduce an AI-Natural Image Discrepancy assessment benchmark (D-Judge) to address the critical question: how far are AI-generated images (AIGIs) from truly realistic images? Our fine-grained evaluation framework assesses the D-ANI dataset across five dimensions: naive visual quality, semantic alignment, aesthetic appeal, downstream task applicability, and coordinated human validation. Extensive experiments reveal substantial discrepancies across these dimensions, highlighting the importance of aligning quantitative metrics with human judgment to achieve a comprehensive understanding of AI-generated image quality. Code: https://github.com/ryliu68/DJudge ; Data: https://huggingface.co/datasets/Renyang/DANI.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)の急速に発展する分野では、AI合成画像と自然画像の区別が中心的な課題である。
視覚的に魅力的な画像を生成するための高度な生成モデルの印象的な能力にもかかわらず、自然画像と比較して大きな相違点が残っている。
これらの違いを体系的に調査し定量化するために,テキスト・ツー・イメージ(T2I),イメージ・ツー・イメージ(I2I),テキスト・アンド・イメージ・ツー・イメージ(TI2I)を含む,9つの非モーダル・マルチモーダル・プロンプトを用いて,5,000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダル・データセットD-ANIを構築した。
次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
D-ANIデータセットを視覚的品質,セマンティックアライメント,美的魅力,下流タスク適用性,協調的検証の5次元にわたって評価する。
大規模な実験は、AI生成画像の品質を包括的に理解するために、定量的メトリクスと人間の判断を整合させることの重要性を強調し、これらの次元でかなりの相違が示される。
コード: https://github.com/ryliu68/DJudge ; データ: https://huggingface.co/datasets/Renyang/DANI
関連論文リスト
- Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images [70.49595920462579]
本研究は,AIGODIの品質評価と歪みを考慮したサリエンシ予測問題について検討する。
BLIP-2モデルに基づく共有エンコーダを用いた2つのモデルを提案する。
論文 参考訳(メタデータ) (2025-06-27T05:36:04Z) - Could AI Trace and Explain the Origins of AI-Generated Images and Text? [53.11173194293537]
AI生成コンテンツは、現実の世界ではますます普及している。
敵は、大規模なマルチモーダルモデルを利用して、倫理的または法的基準に違反した画像を作成するかもしれない。
ペーパーレビュアーは、大きな言語モデルを誤用して、真の知的努力なしにレビューを生成する。
論文 参考訳(メタデータ) (2025-04-05T20:51:54Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - DejAIvu: Identifying and Explaining AI Art on the Web in Real-Time with Saliency Maps [0.0]
DejAIvuは、リアルタイムAI生成画像検出と唾液度に基づく説明性を組み合わせたChrome Webエクステンションである。
当社のアプローチでは、効率的なブラウザ内推論、勾配に基づく唾液度分析、シームレスなユーザエクスペリエンスを統合し、AI検出が透過的かつ解釈可能であることを保証しています。
論文 参考訳(メタデータ) (2025-02-12T22:24:49Z) - SAGI: Semantically Aligned and Uncertainty Guided AI Image Inpainting [11.216906046169683]
SAGI-DはAIが生成する塗り絵の最大かつ最も多様なデータセットである。
実験の結果,セマンティックアライメントは画像の品質と美学を著しく改善することがわかった。
SAGI-Dを使っていくつかの画像法医学的アプローチを訓練すると、ドメイン内の検出性能は平均37.4%向上する。
論文 参考訳(メタデータ) (2025-02-10T15:56:28Z) - AI-generated Image Quality Assessment in Visual Communication [72.11144790293086]
AIGI-VCは、視覚コミュニケーションにおけるAI生成画像の品質評価データベースである。
データセットは、14の広告トピックと8つの感情タイプにまたがる2500のイメージで構成されている。
粗い人間の嗜好アノテーションときめ細かい嗜好記述を提供し、選好予測、解釈、推論におけるIQAメソッドの能力をベンチマークする。
論文 参考訳(メタデータ) (2024-12-20T08:47:07Z) - Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI) [5.8695051911828555]
最近のAI生成画像検出(AGID)には、CNN検出、NPR、DM画像検出、フェイク画像検出、DIRE、LASTED、GAN画像検出、AIDE、SP、DRCT、RINE、OCC-CLIP、De-Fake、Deep Fake Detectionが含まれる。
本稿では,テキスト・ツー・イメージ・モデルによって生成される130K画像からなるベンチマークであるVisual Counter Turing Test (VCT2)を紹介する。
VCT$2$ベンチマークで前述のAGID技術の性能を評価し、AI生成の検出におけるその非効率性を強調した。
論文 参考訳(メタデータ) (2024-11-24T06:03:49Z) - A Sanity Check for AI-generated Image Detection [49.08585395873425]
本稿では,AIによる画像検出の課題が解決されたかどうかの検査を行う。
既存の手法の一般化を定量化するために,Chameleonデータセット上で,既製のAI生成画像検出器を9つ評価した。
複数の専門家が同時に視覚的アーチファクトやノイズパターンを抽出するAI生成画像検出装置(AID)を提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - Development of a Dual-Input Neural Model for Detecting AI-Generated Imagery [0.0]
AI生成画像を検出するツールを開発することが重要である。
本稿では、画像とフーリエ周波数分解の両方を入力として扱うデュアルブランチニューラルネットワークアーキテクチャを提案する。
提案モデルでは,CIFAKEデータセットの精度が94%向上し,従来のML手法やCNNよりも優れていた。
論文 参考訳(メタデータ) (2024-06-19T16:42:04Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - AIGCOIQA2024: Perceptual Quality Assessment of AI Generated Omnidirectional Images [70.42666704072964]
我々はAI生成の全方位画像IQAデータベースAIIGCOIQA2024を構築した。
3つの視点から人間の視覚的嗜好を評価するために、主観的IQA実験を行った。
我々は,データベース上での最先端IQAモデルの性能を評価するためのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-04-01T10:08:23Z) - Exploring the Naturalness of AI-Generated Images [59.04528584651131]
我々は、AI生成画像の視覚的自然性をベンチマークし、評価する第一歩を踏み出した。
本研究では,人間の評価を整列するAGIの自然性を自動予測するジョイント・オブジェクト・イメージ・ナチュラルネス評価器(JOINT)を提案する。
その結果,JOINTは自然性評価において,より主観的に一貫した結果を提供するために,ベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-12-09T06:08:09Z) - PKU-I2IQA: An Image-to-Image Quality Assessment Database for AI
Generated Images [1.6031185986328562]
我々はPKU-I2IQAという人間の知覚に基づく画像から画像へのAIGCIQAデータベースを構築した。
本研究では,非参照画像品質評価法に基づくNR-AIGCIQAとフル参照画像品質評価法に基づくFR-AIGCIQAの2つのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T05:53:03Z) - Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images [67.18010640829682]
我々は,AI生成画像がテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことを示す。
検索モデルのトレーニングデータにAI生成画像を含めると、目に見えない関連性バイアスが増す。
本研究では,目に見えない関連バイアスを軽減するための効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:22:58Z) - CIFAKE: Image Classification and Explainable Identification of
AI-Generated Synthetic Images [7.868449549351487]
本稿では,コンピュータビジョンによるAI生成画像の認識能力を高めることを提案する。
写真が本物かAIによって生成されるかに関して、バイナリ分類問題として存在する2つのデータセット。
本研究では,畳み込みニューラルネットワーク(CNN)を用いて画像をリアルとフェイクの2つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-03-24T16:33:06Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。