論文の概要: ScratchEval: Are GPT-4o Smarter than My Child? Evaluating Large Multimodal Models with Visual Programming Challenges
- arxiv url: http://arxiv.org/abs/2411.18932v1
- Date: Thu, 28 Nov 2024 05:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:20.162340
- Title: ScratchEval: Are GPT-4o Smarter than My Child? Evaluating Large Multimodal Models with Visual Programming Challenges
- Title(参考訳): ScratchEval: GPT-4oは私の子供より賢いか? 視覚プログラミングによる大規模マルチモーダルモデルの評価
- Authors: Rao Fu, Ziyang Luo, Hongzhan Lin, Zhen Ye, Jing Ma,
- Abstract要約: LMMの視覚的プログラミング推論能力を評価するための新しいベンチマークであるScratchEvalを提案する。
ScratchEvalは、子どものプログラミング教育で広く使われているブロックベースのビジュアルプログラミング言語である。
- 参考スコア(独自算出の注目度): 20.316852491762788
- License:
- Abstract: Recent advancements in large multimodal models (LMMs) have showcased impressive code generation capabilities, primarily evaluated through image-to-code benchmarks. However, these benchmarks are limited to specific visual programming scenarios where the logic reasoning and the multimodal understanding capacities are split apart. To fill this gap, we propose ScratchEval, a novel benchmark designed to evaluate the visual programming reasoning ability of LMMs. ScratchEval is based on Scratch, a block-based visual programming language widely used in children's programming education. By integrating visual elements and embedded programming logic, ScratchEval requires the model to process both visual information and code structure, thereby comprehensively evaluating its programming intent understanding ability. Our evaluation approach goes beyond the traditional image-to-code mapping and focuses on unified logical thinking and problem-solving abilities, providing a more comprehensive and challenging framework for evaluating the visual programming ability of LMMs. ScratchEval not only fills the gap in existing evaluation methods, but also provides new insights for the future development of LMMs in the field of visual programming. Our benchmark can be accessed at https://github.com/HKBUNLP/ScratchEval .
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は印象的なコード生成能力を示し、主に画像からコードへのベンチマークによって評価されている。
しかし、これらのベンチマークは、論理的推論とマルチモーダル理解能力が分割される特定のビジュアルプログラミングシナリオに限定されている。
このギャップを埋めるために、LMMの視覚的プログラミング推論能力を評価するために設計された新しいベンチマークであるScratchEvalを提案する。
ScratchEvalはブロックベースのビジュアルプログラミング言語で、子供のプログラミング教育で広く使われている。
ビジュアル要素と組み込みプログラミングロジックを統合することで、ScratchEvalは視覚情報とコード構造の両方を処理するモデルを必要とし、それによってプログラミング意図の理解能力を包括的に評価する。
我々の評価手法は、従来の画像からコードへのマッピングを超えて、統一された論理的思考と問題解決能力に焦点を当て、LMMの視覚的プログラミング能力を評価するためのより包括的で挑戦的なフレームワークを提供する。
ScratchEvalは、既存の評価手法のギャップを埋めるだけでなく、ビジュアルプログラミングの分野におけるLMMの今後の発展に対する新たな洞察を提供する。
私たちのベンチマークはhttps://github.com/HKBUNLP/ScratchEval でアクセスできます。
関連論文リスト
- TurtleBench: A Visual Programming Benchmark in Turtle Geometry [14.856377809214747]
TurtleBenchは、幾何学的パターンを解釈するLMMの能力を評価するために設計されたベンチマークである。
評価の結果,LMMがこれらの課題に大きく取り組むことが明らかとなった。
TurtleBench氏は、直感的および視覚的幾何学的理解において、人間とAIのパフォーマンスのギャップを強調している。
論文 参考訳(メタデータ) (2024-10-31T23:52:06Z) - Can Large Language Models Understand Symbolic Graphics Programs? [136.5639211254501]
シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。
シンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。
LLMの推理性能は概して優れていた。
論文 参考訳(メタデータ) (2024-08-15T17:59:57Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。
視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。
この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-06-19T15:17:10Z) - Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models [42.182009352159]
We present a new efficient LLVM, Mamba based traversal of rationales (Meteor)
豊富な情報を含む長大な論理を埋め込むために,線形時間複雑性を伴う逐次データ処理が可能なMambaアーキテクチャを用いる。
その後、バックボーン・マルチモーダル言語モデル (MLM) を訓練し、合理性の助けを借りて回答を生成する。
論文 参考訳(メタデータ) (2024-05-24T14:04:03Z) - MMCode: Benchmarking Multimodal Large Language Models for Code Generation with Visually Rich Programming Problems [9.56366641717606]
MMCodeは、視覚的にリッチなコンテキストでアルゴリズムによる問題解決スキルを評価するための、最初のマルチモーダルコーディングデータセットである。
MMCodeには3,548の質問と6,620の画像が含まれている。
論文 参考訳(メタデータ) (2024-04-15T06:15:46Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。