論文の概要: How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks
- arxiv url: http://arxiv.org/abs/2507.01955v1
- Date: Wed, 02 Jul 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.447066
- Title: How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks
- Title(参考訳): GPT-4oはどのように視界を理解できるか? : 標準コンピュータビジョン課題におけるマルチモーダル基礎モデルの評価
- Authors: Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, Oğuzhan Fatih Kar, Amir Zamir,
- Abstract要約: 我々は,一般的なマルチモーダル基礎モデル(GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2)のパフォーマンスをコンピュータビジョンの標準的なタスクでベンチマークする。
これらの課題に対処するために、標準的なビジョンタスクを、プロンプトチェーンを通じて、同等のテキストプロンプタブルおよびAPI互換タスクに翻訳し、標準化されたフレームワークを作成する。
- 参考スコア(独自算出の注目度): 11.628499518700572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal foundation models, such as GPT-4o, have recently made remarkable progress, but it is not clear where exactly these models stand in terms of understanding vision. In this paper, we benchmark the performance of popular multimodal foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro and Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) on standard computer vision tasks (semantic segmentation, object detection, image classification, depth and surface normal prediction) using established datasets (e.g., COCO, ImageNet and its variants, etc). The main challenges to performing this are: 1) most models are trained to output text and cannot natively express versatile domains, such as segments or 3D geometry, and 2) many leading models are proprietary and accessible only at an API level, i.e., there is no weight access to adapt them. We address these challenges by translating standard vision tasks into equivalent text-promptable and API-compatible tasks via prompt chaining to create a standardized benchmarking framework. We observe that 1) the models are not close to the state-of-the-art specialist models at any task. However, 2) they are respectable generalists; this is remarkable as they are presumably trained on primarily image-text-based tasks. 3) They perform semantic tasks notably better than geometric ones. 4) While the prompt-chaining techniques affect performance, better models exhibit less sensitivity to prompt variations. 5) GPT-4o performs the best among non-reasoning models, securing the top position in 4 out of 6 tasks, 6) reasoning models, e.g. o3, show improvements in geometric tasks, and 7) a preliminary analysis of models with native image generation, like the latest GPT-4o, shows they exhibit quirks like hallucinations and spatial misalignments.
- Abstract(参考訳): GPT-4oのようなマルチモーダル基礎モデルは近年顕著な進歩を遂げているが、これらのモデルが視覚の理解の観点から正確にどう立っているかは明らかになっていない。
本稿では,一般的なマルチモーダル基礎モデル(GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2)の性能を,確立されたデータセット(例えば,COCO, ImageNetとその変種)を用いてベンチマークする。
これを実行する上での課題は次のとおりである。
1) ほとんどのモデルはテキストを出力するように訓練されており、セグメントや3D幾何学といった汎用ドメインをネイティブに表現できない。
2) 主要なモデルの多くはプロプライエタリであり、APIレベルでのみアクセス可能である。
標準化されたベンチマークフレームワークを作成するために,これらの課題に対処するために,標準的なビジョンタスクをプロンプトチェーンを通じて,同等のテキストプロンプタブルおよびAPI互換タスクに変換する。
私たちはそれを観察する
1)モデルがどのタスクにおいても最先端のスペシャリストモデルに近くない。
しかし、
2)これらは優れた一般論者であり,主に画像テキストに基づくタスクで訓練されていると考えられることから注目に値する。
3) 意味的タスクは幾何学的タスクよりも特に優れている。
4) プロンプトチェイン技術は性能に影響を及ぼすが, より優れたモデルでは, 変化を促す感度が低下する。
5) GPT-4oは,6つのタスクのうち4つのタスクにおいて,最上位の位置を確保する。
6) 推論モデル、eg o3は、幾何学的タスクの改善を示し、
7)最新のGPT-4oのようなネイティブ画像生成モデルに対する予備的な分析により,幻覚や空間的不一致などの特徴が示された。
関連論文リスト
- Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文 参考訳(メタデータ) (2025-03-26T17:56:16Z) - CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples [34.71588837946776]
視覚言語合成推論を改善するためのフレームワークであるCounterCurateを提案する。
特に、物理的根拠に基づく推論の無視という、2つの重要な未探索問題を特定する。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
論文 参考訳(メタデータ) (2024-02-20T18:59:55Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter [19.830089364830066]
ArtGPT-4は、芸術的理解における既存のモデルの限界に対処するために設計された大きな視覚言語モデルである。
芸術的理解で画像を描画し、それらが刺激する感情を伝え、人間の解釈を反映する。
論文 参考訳(メタデータ) (2023-05-12T14:04:30Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。