論文の概要: Can ChatGPT Perform Image Splicing Detection? A Preliminary Study
- arxiv url: http://arxiv.org/abs/2506.05358v1
- Date: Thu, 22 May 2025 13:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:18.999142
- Title: Can ChatGPT Perform Image Splicing Detection? A Preliminary Study
- Title(参考訳): ChatGPTによる画像スプライシング検出は可能か? : 予備的検討
- Authors: Souradip Nath,
- Abstract要約: GPT-4Vのようなマルチモーダル大言語モデル(MLLM)は、テキストと画像のモダリティを推論することができる。
ゼロショット(ZS)、フューショット(FS)、チェーン・オブ・ソート(CoT)の3つのプロンプト戦略を用いてGPT-4Vを評価する。
以上の結果から,GPT-4Vはゼロショット環境での競合検出性能(精度85%以上)を達成することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) like GPT-4V are capable of reasoning across text and image modalities, showing promise in a variety of complex vision-language tasks. In this preliminary study, we investigate the out-of-the-box capabilities of GPT-4V in the domain of image forensics, specifically, in detecting image splicing manipulations. Without any task-specific fine-tuning, we evaluate GPT-4V using three prompting strategies: Zero-Shot (ZS), Few-Shot (FS), and Chain-of-Thought (CoT), applied over a curated subset of the CASIA v2.0 splicing dataset. Our results show that GPT-4V achieves competitive detection performance in zero-shot settings (more than 85% accuracy), with CoT prompting yielding the most balanced trade-off across authentic and spliced images. Qualitative analysis further reveals that the model not only detects low-level visual artifacts but also draws upon real-world contextual knowledge such as object scale, semantic consistency, and architectural facts, to identify implausible composites. While GPT-4V lags behind specialized state-of-the-art splicing detection models, its generalizability, interpretability, and encyclopedic reasoning highlight its potential as a flexible tool in image forensics.
- Abstract(参考訳): GPT-4Vのようなマルチモーダル大言語モデル(MLLM)は、テキストや画像のモダリティを解析し、様々な複雑な視覚言語タスクの可能性を示せる。
本稿では,画像法医学領域におけるGPT-4Vのアウト・オブ・ボックス機能,特に画像スプライシング操作の検出について検討する。
CASIA v2.0スプリシングデータセットのキュレートされたサブセットに適用したZero-Shot(ZS)、Few-Shot(FS)、Chain-of-Thought(CoT)の3つのプロンプト戦略を用いてGPT-4Vを評価する。
以上の結果から,GPT-4Vはゼロショット環境での競合検出性能(精度85%以上)を達成でき,CoTは実画像とスプライシング画像間で最もバランスの取れたトレードオフをもたらすことが示唆された。
定性的分析により、モデルは低レベルな視覚的アーティファクトを検知するだけでなく、オブジェクトスケール、セマンティック一貫性、アーキテクチャ事実といった現実の文脈的知識にも依存し、予測不可能な合成物を特定することが明らかにされた。
GPT-4Vは特定の最先端スプライシング検出モデルに遅れをとっているが、その一般化可能性、解釈可能性、百科事典推論は画像法医学における柔軟なツールとしての可能性を強調している。
関連論文リスト
- GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation [28.235805447825896]
OpenAIのGPT4oモデルは、画像生成と編集において驚くほど優れた機能を示している。
本報告では、GPT-ImgEvalというファーストルック評価ベンチマークについて述べる。
GPT-4oの性能は,生成品質,(2)編集能力,(3)世界知識インフォームド合成の3つの重要な側面にまたがっている。
論文 参考訳(メタデータ) (2025-04-03T17:23:16Z) - Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images [0.5825410941577593]
本稿では,テキスト検出,テキスト抽出,テキスト解析を含むPHI検出のためのAIベースのパイプラインを提案する。
YOLOv11、EasyOCR、GPT-4oの3つのモデルを、これらのコンポーネントに対応する異なる設定でベンチマークする。
テキストローカライゼーションのためのYOLOv11と、抽出と解析のためのGPT-4oを組み合わせることで、最良の結果が得られる。
論文 参考訳(メタデータ) (2025-01-16T14:12:33Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V [103.68138147783614]
大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。
我々は、SEEM/SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を領域に分割し、これらの領域を一連のマークでオーバーレイする。
マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
論文 参考訳(メタデータ) (2023-10-17T17:51:31Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。