Fugu-MT 論文翻訳(概要): Evaluating GPT-4's Vision Capabilities on Brazilian University Admission Exams

論文の概要: Evaluating GPT-4's Vision Capabilities on Brazilian University Admission Exams

arxiv url: http://arxiv.org/abs/2311.14169v1
Date: Thu, 23 Nov 2023 19:20:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 16:26:29.854259
Title: Evaluating GPT-4's Vision Capabilities on Brazilian University Admission Exams
Title（参考訳）: ブラジル大学入学試験におけるGPT-4の視力評価
Authors: Ramon Pires, Thales Sales Almeida, Hugo Abonizio, Rodrigo Nogueira
Abstract要約: 本稿では,文章要素と視覚要素の両方を組み込んだ,入学試験における言語モデルの評価フレームワークを提案する。ブラジルの大学が採用している入学試験であるExame Nacional do Ensino M'edio(ENEM)の2つの最新版を評価した。ハイライトの1つは、視覚コンテンツを翻訳するテキストキャプションが画像の直接使用よりも優れており、視覚モデルに改善の余地があることである。
参考スコア（独自算出の注目度）: 14.801853435122908
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in language models have showcased human-comparable performance in academic entrance exams. However, existing studies often overlook questions that require the integration of visual comprehension, thus compromising the full spectrum and complexity inherent in real-world scenarios. To address this gap, we present a comprehensive framework to evaluate language models on entrance exams, which incorporates both textual and visual elements. We evaluate the two most recent editions of Exame Nacional do Ensino M\'edio (ENEM), the main standardized entrance examination adopted by Brazilian universities. Our study not only reaffirms the capabilities of GPT-4 as the state of the art for handling complex multidisciplinary questions, but also pioneers in offering a realistic assessment of multimodal language models on Portuguese examinations. One of the highlights is that text captions transcribing visual content outperform the direct use of images, suggesting that the vision model has room for improvement. Yet, despite improvements afforded by images or captions, mathematical questions remain a challenge for these state-of-the-art models. The code and data used on experiments are available at https://github.com/piresramon/gpt-4-enem.
Abstract（参考訳）: 近年の言語モデルの進歩は、学術受験において人間に相応しい性能を示した。しかし、既存の研究はしばしば、視覚的理解の統合を必要とする問題を見落とし、現実のシナリオに固有の完全なスペクトルと複雑さを妥協させる。このギャップに対処するために,テキスト要素と視覚要素の両方を組み込んだ入学試験における言語モデル評価フレームワークを提案する。ブラジルの大学が採用する主要な標準入学試験であるExame Nacional do Ensino M\'edio(ENEM)の2つの最新版を評価した。本研究は,GPT-4の複雑な多分野質問処理技術としての能力を再確認するだけでなく,ポルトガル語試験におけるマルチモーダル言語モデルの現実的評価の先駆者でもある。ハイライトの1つは、視覚コンテンツを翻訳するテキストキャプションが画像の直接使用よりも優れており、視覚モデルに改善の余地があることである。しかし、画像やキャプションによる改善にもかかわらず、数学的な疑問はこれらの最先端モデルの課題である。実験で使用されるコードとデータは、https://github.com/piresramon/gpt-4-enemで入手できる。

関連論文リスト

VLM@school -- Evaluation of AI image understanding on German middle school knowledge [0.0]
本稿では、視覚言語モデル(VLM)の能力を評価するために設計された新しいベンチマークデータセットを提案する。このデータセットは、数学、歴史、生物学、宗教を含む9つの領域にまたがる実際の中学カリキュラムから導かれる。我々は,複数の次元にわたる最先端のオープンウェイトVLM13種の評価を行った。
論文参考訳（メタデータ） (2025-06-13T09:20:41Z)
ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian [0.0]
本稿では,ウクライナの標準教育試験システムによる実際の試験課題に基づくZNO-Evalベンチマークを提案する。それは、異なるドメインと複雑さにわたる推論能力の徹底的な分析への道を開く。 GPT-3.5-Turbo、GPT-4-Turbo、Mistral Large、Claude 3 Opus、Gemini-1.5 Proなど、よく知られた言語モデルの評価。
論文参考訳（メタデータ） (2025-01-12T04:49:06Z)
Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。 GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文参考訳（メタデータ） (2024-06-19T19:00:21Z)
Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam [0.0]
本研究では,OpenAIの最も先進的な視覚モデルであるChatGPT-4 Visionの性能について検討する。試験のオープンで複数選択の質問を元の画像形式で提示することで,モデルの推論能力と自己回帰能力を評価することができた。 ChatGPT-4 Visionは、平均的な試験受験者よりも優れており、スコアパーセンタイルのトップ10に入っている。
論文参考訳（メタデータ） (2024-06-14T02:42:30Z)
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。 GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文参考訳（メタデータ） (2024-01-24T09:07:11Z)
Holistic Analysis of Hallucination in GPT-4V(ision): Bias and Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文参考訳（メタデータ） (2023-11-06T17:26:59Z)
GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文参考訳（メタデータ） (2023-11-02T16:11:09Z)
Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文参考訳（メタデータ） (2023-10-12T09:39:17Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。 IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文参考訳（メタデータ） (2022-01-27T18:53:22Z)
Probing Contextual Language Models for Common Ground with Visual Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文参考訳（メタデータ） (2020-05-01T21:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。