論文の概要: GPT-5 Model Corrected GPT-4V's Chart Reading Errors, Not Prompting
- arxiv url: http://arxiv.org/abs/2510.06782v1
- Date: Wed, 08 Oct 2025 09:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.377917
- Title: GPT-5 Model Corrected GPT-4V's Chart Reading Errors, Not Prompting
- Title(参考訳): GPT-5モデルによるGPT-4Vのチャート読解誤差の補正
- Authors: Kaichun Yang, Jian Chen,
- Abstract要約: 本稿では,ゼロショット大言語モデル(LLM)がチャート読解タスクに与える影響を定量的に評価する。
エージェントGPT-5とマルチモーダルGPT-4Vの推測精度を比較するため, LLMに107の可視化質問に対する回答を求めた。
その結果,モデルアーキテクチャが推論精度を支配しているのに対し,プロンプト変種は小さな効果しか得られていないことがわかった。
- 参考スコア(独自算出の注目度): 3.765281403026053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a quantitative evaluation to understand the effect of zero-shot large-language model (LLMs) and prompting uses on chart reading tasks. We asked LLMs to answer 107 visualization questions to compare inference accuracies between the agentic GPT-5 and multimodal GPT-4V, for difficult image instances, where GPT-4V failed to produce correct answers. Our results show that model architecture dominates the inference accuracy: GPT5 largely improved accuracy, while prompt variants yielded only small effects. Pre-registration of this work is available here: https://osf.io/u78td/?view_only=6b075584311f48e991c39335c840ded3; the Google Drive materials are here:https://drive.google.com/file/d/1ll8WWZDf7cCNcfNWrLViWt8GwDNSvVrp/view.
- Abstract(参考訳): 本稿では,ゼロショット大言語モデル (LLM) の効果を定量的に評価し,チャート読解タスクへの活用を促す。
エージェントGPT-5とマルチモーダルGPT-4Vの推測精度を比較するために、LCMに107の可視化質問に回答するよう頼んだが、GPT-4Vは正しい答えを得られなかった。
GPT5は精度を大幅に改善し,即時変種は小さな効果しか得られなかった。
https://osf.io/u78td/?
https://drive.google.com/file/d/1ll8WWZDf7cCNcfNrLViWt8GwDNSvVrp/view。
関連論文リスト
- NERIF: GPT-4V for Automatic Scoring of Drawn Models [0.6278186810520364]
最近リリースされたGPT-4Vは、科学的モデリングの実践を前進させるユニークな機会を提供する。
我々は,GPT-4Vに学生の描画モデルを評価するための指導音とルーブリックを用いた手法を開発した。
GPT-4Vのスコアを人間の専門家のスコアと比較し、スコアの精度を計算した。
論文 参考訳(メタデータ) (2023-11-21T20:52:04Z) - An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。
GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文 参考訳(メタデータ) (2023-10-25T10:33:17Z) - Evaluating Large Language Models on Graphs: Performance Insights and
Comparative Analysis [7.099257763803159]
グラフデータを用いた解析問題に対処する4つの大規模言語モデル(LLM)の性能評価を行った。
私たちは、正確性、忠実性、そして正当性という、4つの異なる評価指標を採用しています。
GPTモデルは論理的およびコヒーレントな結果を生成し、正確性において代替よりも優れる。
論文 参考訳(メタデータ) (2023-08-22T06:32:07Z) - IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models [80.4460931172274]
大規模言語モデル(LLM)を用いた視覚・言語推論(VL)を分解するフレームワークを開発する。
特に、IdealGPTは、VCRでは10%、SNLI-VEでは15%、既存のGPT-4のようなモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T10:19:57Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。