論文の概要: Evaluating GPT-4's Vision Capabilities on Brazilian University Admission
Exams
- arxiv url: http://arxiv.org/abs/2311.14169v1
- Date: Thu, 23 Nov 2023 19:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:26:29.854259
- Title: Evaluating GPT-4's Vision Capabilities on Brazilian University Admission
Exams
- Title(参考訳): ブラジル大学入学試験におけるGPT-4の視力評価
- Authors: Ramon Pires, Thales Sales Almeida, Hugo Abonizio, Rodrigo Nogueira
- Abstract要約: 本稿では,文章要素と視覚要素の両方を組み込んだ,入学試験における言語モデルの評価フレームワークを提案する。
ブラジルの大学が採用している入学試験であるExame Nacional do Ensino M'edio(ENEM)の2つの最新版を評価した。
ハイライトの1つは、視覚コンテンツを翻訳するテキストキャプションが画像の直接使用よりも優れており、視覚モデルに改善の余地があることである。
- 参考スコア(独自算出の注目度): 14.801853435122908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in language models have showcased human-comparable
performance in academic entrance exams. However, existing studies often
overlook questions that require the integration of visual comprehension, thus
compromising the full spectrum and complexity inherent in real-world scenarios.
To address this gap, we present a comprehensive framework to evaluate language
models on entrance exams, which incorporates both textual and visual elements.
We evaluate the two most recent editions of Exame Nacional do Ensino M\'edio
(ENEM), the main standardized entrance examination adopted by Brazilian
universities. Our study not only reaffirms the capabilities of GPT-4 as the
state of the art for handling complex multidisciplinary questions, but also
pioneers in offering a realistic assessment of multimodal language models on
Portuguese examinations. One of the highlights is that text captions
transcribing visual content outperform the direct use of images, suggesting
that the vision model has room for improvement. Yet, despite improvements
afforded by images or captions, mathematical questions remain a challenge for
these state-of-the-art models. The code and data used on experiments are
available at https://github.com/piresramon/gpt-4-enem.
- Abstract(参考訳): 近年の言語モデルの進歩は、学術受験において人間に相応しい性能を示した。
しかし、既存の研究はしばしば、視覚的理解の統合を必要とする問題を見落とし、現実のシナリオに固有の完全なスペクトルと複雑さを妥協させる。
このギャップに対処するために,テキスト要素と視覚要素の両方を組み込んだ入学試験における言語モデル評価フレームワークを提案する。
ブラジルの大学が採用する主要な標準入学試験であるExame Nacional do Ensino M\'edio(ENEM)の2つの最新版を評価した。
本研究は,GPT-4の複雑な多分野質問処理技術としての能力を再確認するだけでなく,ポルトガル語試験におけるマルチモーダル言語モデルの現実的評価の先駆者でもある。
ハイライトの1つは、視覚コンテンツを翻訳するテキストキャプションが画像の直接使用よりも優れており、視覚モデルに改善の余地があることである。
しかし、画像やキャプションによる改善にもかかわらず、数学的な疑問はこれらの最先端モデルの課題である。
実験で使用されるコードとデータは、https://github.com/piresramon/gpt-4-enemで入手できる。
関連論文リスト
- ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian [0.0]
本稿では,ウクライナの標準教育試験システムによる実際の試験課題に基づくZNO-Evalベンチマークを提案する。
それは、異なるドメインと複雑さにわたる推論能力の徹底的な分析への道を開く。
GPT-3.5-Turbo、GPT-4-Turbo、Mistral Large、Claude 3 Opus、Gemini-1.5 Proなど、よく知られた言語モデルの評価。
論文 参考訳(メタデータ) (2025-01-12T04:49:06Z) - Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。
GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。
モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文 参考訳(メタデータ) (2024-06-19T19:00:21Z) - Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam [0.0]
本研究では,OpenAIの最も先進的な視覚モデルであるChatGPT-4 Visionの性能について検討する。
試験のオープンで複数選択の質問を元の画像形式で提示することで,モデルの推論能力と自己回帰能力を評価することができた。
ChatGPT-4 Visionは、平均的な試験受験者よりも優れており、スコアパーセンタイルのトップ10に入っている。
論文 参考訳(メタデータ) (2024-06-14T02:42:30Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。