論文の概要: GPT-5 Model Corrected GPT-4V's Chart Reading Errors, Not Prompting
- arxiv url: http://arxiv.org/abs/2510.06782v1
- Date: Wed, 08 Oct 2025 09:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.377917
- Title: GPT-5 Model Corrected GPT-4V's Chart Reading Errors, Not Prompting
- Title(参考訳): GPT-5モデルによるGPT-4Vのチャート読解誤差の補正
- Authors: Kaichun Yang, Jian Chen,
- Abstract要約: 本稿では,ゼロショット大言語モデル(LLM)がチャート読解タスクに与える影響を定量的に評価する。
エージェントGPT-5とマルチモーダルGPT-4Vの推測精度を比較するため, LLMに107の可視化質問に対する回答を求めた。
その結果,モデルアーキテクチャが推論精度を支配しているのに対し,プロンプト変種は小さな効果しか得られていないことがわかった。
- 参考スコア(独自算出の注目度): 3.765281403026053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a quantitative evaluation to understand the effect of zero-shot large-language model (LLMs) and prompting uses on chart reading tasks. We asked LLMs to answer 107 visualization questions to compare inference accuracies between the agentic GPT-5 and multimodal GPT-4V, for difficult image instances, where GPT-4V failed to produce correct answers. Our results show that model architecture dominates the inference accuracy: GPT5 largely improved accuracy, while prompt variants yielded only small effects. Pre-registration of this work is available here: https://osf.io/u78td/?view_only=6b075584311f48e991c39335c840ded3; the Google Drive materials are here:https://drive.google.com/file/d/1ll8WWZDf7cCNcfNWrLViWt8GwDNSvVrp/view.
- Abstract(参考訳): 本稿では,ゼロショット大言語モデル (LLM) の効果を定量的に評価し,チャート読解タスクへの活用を促す。
エージェントGPT-5とマルチモーダルGPT-4Vの推測精度を比較するために、LCMに107の可視化質問に回答するよう頼んだが、GPT-4Vは正しい答えを得られなかった。
GPT5は精度を大幅に改善し,即時変種は小さな効果しか得られなかった。
https://osf.io/u78td/?
https://drive.google.com/file/d/1ll8WWZDf7cCNcfNrLViWt8GwDNSvVrp/view。
関連論文リスト
- OpenAI GPT-5 System Card [247.27796140570612]
GPT-5は、多くの質問に答えるスマートで高速なモデルを備えた統一システムである。
リアルタイムルータは、会話タイプ、複雑さ、ツールニーズ、明示的な意図に基づいて使用するモデルを決定する。
利用制限に達すると、各モデルのミニバージョンが残りのクエリを処理する。
論文 参考訳(メタデータ) (2025-12-19T07:05:38Z) - Exploring ChatGPT for Face Presentation Attack Detection in Zero and Few-Shot in-Context Learning [6.537257913467247]
本研究では,顔提示検出(PAD)の代替手段としてのChatGPT(特にGPT-4o)の可能性を明らかにする。
以上の結果から, GPT-4oは高一貫性を示すことが示唆された。
注目すべきは、このモデルは創発的な推論能力を示し、数ショットのシナリオで高い精度で攻撃タイプ(プリントまたはリプレイ)を正確に予測する。
論文 参考訳(メタデータ) (2025-01-15T13:46:33Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - NERIF: GPT-4V for Automatic Scoring of Drawn Models [0.6278186810520364]
最近リリースされたGPT-4Vは、科学的モデリングの実践を前進させるユニークな機会を提供する。
我々は,GPT-4Vに学生の描画モデルを評価するための指導音とルーブリックを用いた手法を開発した。
GPT-4Vのスコアを人間の専門家のスコアと比較し、スコアの精度を計算した。
論文 参考訳(メタデータ) (2023-11-21T20:52:04Z) - An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。
GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文 参考訳(メタデータ) (2023-10-25T10:33:17Z) - Evaluating Large Language Models on Graphs: Performance Insights and
Comparative Analysis [7.099257763803159]
グラフデータを用いた解析問題に対処する4つの大規模言語モデル(LLM)の性能評価を行った。
私たちは、正確性、忠実性、そして正当性という、4つの異なる評価指標を採用しています。
GPTモデルは論理的およびコヒーレントな結果を生成し、正確性において代替よりも優れる。
論文 参考訳(メタデータ) (2023-08-22T06:32:07Z) - IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models [80.4460931172274]
大規模言語モデル(LLM)を用いた視覚・言語推論(VL)を分解するフレームワークを開発する。
特に、IdealGPTは、VCRでは10%、SNLI-VEでは15%、既存のGPT-4のようなモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T10:19:57Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。