Fugu-MT 論文翻訳(概要): DiffuSyn Bench: Evaluating Vision-Language Models on Real-World Complexities with Diffusion-Generated Synthetic Benchmarks

論文の概要: DiffuSyn Bench: Evaluating Vision-Language Models on Real-World Complexities with Diffusion-Generated Synthetic Benchmarks

arxiv url: http://arxiv.org/abs/2406.04470v2
Date: Thu, 13 Jun 2024 16:46:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 22:46:45.048882
Title: DiffuSyn Bench: Evaluating Vision-Language Models on Real-World Complexities with Diffusion-Generated Synthetic Benchmarks
Title（参考訳）: DiffuSyn Bench: 拡散生成合成ベンチマークによる実世界の複雑性のビジョンランゲージモデルの評価
Authors: Haokun Zhou, Yipeng Hong,
Abstract要約: 本研究では,AI生成画像と人間生成画像とを区別するLVLM(Large Vision-Language Models)の能力を評価する。この評価のための新しい自動ベンチマーク構築手法を導入する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study assesses the ability of Large Vision-Language Models (LVLMs) to differentiate between AI-generated and human-generated images. It introduces a new automated benchmark construction method for this evaluation. The experiment compared common LVLMs with human participants using a mixed dataset of AI and human-created images. Results showed that LVLMs could distinguish between the image types to some extent but exhibited a rightward bias, and perform significantly worse compared to humans. To build on these findings, we developed an automated benchmark construction process using AI. This process involved topic retrieval, narrative script generation, error embedding, and image generation, creating a diverse set of text-image pairs with intentional errors. We validated our method through constructing two caparable benchmarks. This study highlights the strengths and weaknesses of LVLMs in real-world understanding and advances benchmark construction techniques, providing a scalable and automatic approach for AI model evaluation.
Abstract（参考訳）: 本研究では,AI生成画像と人間生成画像とを区別するLVLM(Large Vision-Language Models)の能力を評価する。この評価のための新しい自動ベンチマーク構築手法を導入する。この実験は、AIと人間の作成した画像の混合データセットを使用して、一般的なLVLMと人間の参加者を比較した。その結果、LVLMは画像の種類をある程度区別できるが、右向きの偏見を示し、人間に比べてかなり悪い結果が得られた。これらの結果に基づいて,AIを用いた自動ベンチマーク構築プロセスを開発した。このプロセスには、トピック検索、物語のスクリプト生成、エラー埋め込み、画像生成が含まれ、意図的なエラーを伴う多様なテキストイメージペアを作成する。キャパブルベンチマークを2つ構築することで,本手法の有効性を検証した。本研究は、実世界の理解におけるLVLMの強みと弱みを強調し、ベンチマーク構築手法を進歩させ、AIモデル評価のためのスケーラブルで自動的なアプローチを提供する。

関連論文リスト

Mirage: Unveiling Hidden Artifacts in Synthetic Images with Large Vision-Language Models [5.0378934905319355]
説明可能なAI画像検出にLVLM(Large Vision-Language Models)を利用することができるかを検討する。 Mirageと既存のベンチマークデータセットを用いた実験により、LVLMは目に見えるアーティファクトでAI生成画像を検出するのに非常に効果的であるが、そのような手がかりを欠いた画像に直面すると性能が低下することが示された。
論文参考訳（メタデータ） (2025-10-04T15:38:39Z)
Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios [54.07895223545793]
本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。 RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
論文参考訳（メタデータ） (2025-09-11T06:15:52Z)
ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。 ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文参考訳（メタデータ） (2025-08-02T15:21:26Z)
Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images [70.49595920462579]
本研究は,AIGODIの品質評価と歪みを考慮したサリエンシ予測問題について検討する。 BLIP-2モデルに基づく共有エンコーダを用いた2つのモデルを提案する。
論文参考訳（メタデータ） (2025-06-27T05:36:04Z)
Scene Perceived Image Perceptual Score (SPIPS): combining global and local perception for image quality assessment [0.0]
深層学習と人間の知覚のギャップを埋める新しいIQA手法を提案する。我々のモデルは、深い特徴を高レベルの意味情報と低レベルの知覚の詳細に分解し、それぞれのストリームを別々に扱う。このハイブリッド設計により、グローバルコンテキストと複雑な画像の詳細の両方を評価し、人間の視覚過程をより良く反映することができる。
論文参考訳（メタデータ） (2025-04-24T04:06:07Z)
Detecting the Undetectable: Combining Kolmogorov-Arnold Networks and MLP for AI-Generated Image Detection [0.0]
本稿では,最先端な生成AIモデルによって生成された画像の堅牢な識別が可能な,新しい検出フレームワークを提案する。従来の多層パーセプトロン(MLP)とセマンティックイメージ埋め込みを統合した分類システムを提案する。
論文参考訳（メタデータ） (2024-08-18T06:00:36Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
FovEx: Human-Inspired Explanations for Vision Transformers and Convolutional Neural Networks [8.659674736978555]
人間の視覚に触発された新しいXAI手法であるFovEx(Floveation-based Explanations)を紹介する。本手法はトランスモデルと畳み込みモデルの両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-08-04T19:37:30Z)
A Sanity Check for AI-generated Image Detection [49.08585395873425]
本稿では,AIによる画像検出の課題が解決されたかどうかの検査を行う。既存の手法の一般化を定量化するために,Chameleonデータセット上で,既製のAI生成画像検出器を9つ評価した。複数の専門家が同時に視覚的アーチファクトやノイズパターンを抽出するAI生成画像検出装置(AID)を提案する。
論文参考訳（メタデータ） (2024-06-27T17:59:49Z)
Improving Interpretability and Robustness for the Detection of AI-Generated Images [6.116075037154215]
凍結したCLIP埋め込みに基づいて、既存の最先端AIGI検出手法を解析する。さまざまなAIジェネレータが生成する画像が実際の画像とどのように異なるかを示す。
論文参考訳（メタデータ） (2024-06-21T10:33:09Z)
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。 RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文参考訳（メタデータ） (2024-05-30T14:49:54Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文参考訳（メタデータ） (2024-04-02T13:54:22Z)
Optimizations of Autoencoders for Analysis and Classification of Microscopic In Situ Hybridization Images [68.8204255655161]
同様のレベルの遺伝子発現を持つ顕微鏡画像の領域を検出・分類するためのディープラーニングフレームワークを提案する。分析するデータには教師なし学習モデルが必要です。
論文参考訳（メタデータ） (2023-04-19T13:45:28Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
CIFAKE: Image Classification and Explainable Identification of AI-Generated Synthetic Images [7.868449549351487]
本稿では,コンピュータビジョンによるAI生成画像の認識能力を高めることを提案する。写真が本物かAIによって生成されるかに関して、バイナリ分類問題として存在する2つのデータセット。本研究では,畳み込みニューラルネットワーク(CNN)を用いて画像をリアルとフェイクの2つのカテゴリに分類する。
論文参考訳（メタデータ） (2023-03-24T16:33:06Z)
IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。 IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文参考訳（メタデータ） (2021-04-13T02:00:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。