Fugu-MT 論文翻訳(概要): An Eye for an AI: Evaluating GPT-4o's Visual Perception Skills and Geometric Reasoning Skills Using Computer Graphics Questions

論文の概要: An Eye for an AI: Evaluating GPT-4o's Visual Perception Skills and Geometric Reasoning Skills Using Computer Graphics Questions

arxiv url: http://arxiv.org/abs/2410.16991v1
Date: Tue, 22 Oct 2024 13:12:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.024356
Title: An Eye for an AI: Evaluating GPT-4o's Visual Perception Skills and Geometric Reasoning Skills Using Computer Graphics Questions
Title（参考訳）: AIの目:コンピュータグラフィックスによるGPT-4oの視覚知覚スキルと幾何学的推論スキルの評価
Authors: Tony Haoran Feng, Paul Denny, Burkhard C. Wünsche, Andrew Luxton-Reilly, Jacqueline Whalley,
Abstract要約: 我々は,視覚知覚能力と幾何学的推論能力の異なるCG質問のデータセットを2つ構築する。 GPT-4oは視覚情報と独立して解答する大きな可能性を秘めているが,結果の正確性や質には大きな限界がある。
参考スコア（独自算出の注目度）: 1.9228017115021472
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: CG (Computer Graphics) is a popular field of CS (Computer Science), but many students find this topic difficult due to it requiring a large number of skills, such as mathematics, programming, geometric reasoning, and creativity. Over the past few years, researchers have investigated ways to harness the power of GenAI (Generative Artificial Intelligence) to improve teaching. In CS, much of the research has focused on introductory computing. A recent study evaluating the performance of an LLM (Large Language Model), GPT-4 (text-only), on CG questions, indicated poor performance and reliance on detailed descriptions of image content, which often required considerable insight from the user to return reasonable results. So far, no studies have investigated the abilities of LMMs (Large Multimodal Models), or multimodal LLMs, to solve CG questions and how these abilities can be used to improve teaching. In this study, we construct two datasets of CG questions requiring varying degrees of visual perception skills and geometric reasoning skills, and evaluate the current state-of-the-art LMM, GPT-4o, on the two datasets. We find that although GPT-4o exhibits great potential in solving questions with visual information independently, major limitations still exist to the accuracy and quality of the generated results. We propose several novel approaches for CG educators to incorporate GenAI into CG teaching despite these limitations. We hope that our guidelines further encourage learning and engagement in CG classrooms.
Abstract（参考訳）: CG(Computer Graphics)はCS(Computer Science)の一般的な分野であるが、数学、プログラミング、幾何学的推論、創造性といった多くのスキルを必要とするため、多くの学生がこの問題を困難にしている。過去数年間、研究者はGenAI(Generative Artificial Intelligence)の力を利用して教育を改善する方法を研究してきた。 CSでは、多くの研究が導入型コンピューティングに焦点を当てている。近年,LCM (Large Language Model) のCG質問に対する GPT-4 (text-only) の性能評価の結果,画像内容の詳細な記述への依存度が低かった。 LMM (Large Multimodal Models) やマルチモーダル LLM (Multimodal LLMs) のCG質問の解決能力や、これらの能力が教育改善にどのように役立つかは、今のところ研究されていない。本研究では,視覚認知能力と幾何学的推論能力の相違を必要とするCG質問の2つのデータセットを構築し,その2つのデータセット上で現在最先端のLMMであるGPT-4oを評価する。 GPT-4oは視覚情報と独立して解答する大きな可能性を秘めているが,結果の正確性や質には大きな限界が残っている。 CG教育者に対して,これらの制限にもかかわらず,GenAIをCG教育に組み込むための新しいアプローチを提案する。 CG教室での学習とエンゲージメントをさらに促進したい。

関連論文リスト

Inferring Questions from Programming Screenshots [1.934036432603761]
Stack Overflowのような開発者フォーラムへの生成AIの統合は、問題解決を強化する機会を提供する。本研究では,このような視覚的入力の解釈における様々な大規模言語モデル (LLM) の有効性を評価する。我々は、各モデルの応答性と精度を評価するために、コンテキスト内学習、チェーン・オブ・シークレット・プロンプト、少数ショット・ラーニングなど、素早いエンジニアリング技術を採用する。
論文参考訳（メタデータ） (2025-04-26T12:58:17Z)
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文参考訳（メタデータ） (2025-03-23T10:33:28Z)
Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文参考訳（メタデータ） (2025-01-11T04:08:44Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions [2.0411082897313984]
本研究では, LLM, 特に GPT-3.5 と GPT-4 が, グレード9の算数に適した質問をいかに展開できるかを検討する。反復的手法を用いることで、これらのモデルは、シミュレーションされた「学生」モデルからのフィードバックに応じて、難易度と内容に基づいて質問を調整する。
論文参考訳（メタデータ） (2024-06-20T00:25:43Z)
Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam [0.0]
本研究では,OpenAIの最も先進的な視覚モデルであるChatGPT-4 Visionの性能について検討する。試験のオープンで複数選択の質問を元の画像形式で提示することで,モデルの推論能力と自己回帰能力を評価することができた。 ChatGPT-4 Visionは、平均的な試験受験者よりも優れており、スコアパーセンタイルのトップ10に入っている。
論文参考訳（メタデータ） (2024-06-14T02:42:30Z)
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-02-06T18:43:48Z)
A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供しているしかし、真の課題は知識集約型VQAタスクの領域にある。 1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文参考訳（メタデータ） (2023-11-13T18:22:32Z)
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。 GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文参考訳（メタデータ） (2023-10-03T17:57:24Z)
LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities [66.36633042421387]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文参考訳（メタデータ） (2023-05-22T15:56:44Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)
A Survey on Visual Transfer Learning using Knowledge Graphs [0.8701566919381223]
本調査は知識グラフ(KG)を用いた視覚伝達学習手法に焦点を当てる。 KGは、基礎となるグラフ構造化スキーマやベクトルベースの知識グラフの埋め込みにおいて補助的な知識を表現することができる。本稿では,知識グラフの埋め込み手法の概要を概説し,それらを高次元の視覚的埋め込みと組み合わせた共同学習の目的について述べる。
論文参考訳（メタデータ） (2022-01-27T20:19:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。