論文の概要: TurtleBench: A Visual Programming Benchmark in Turtle Geometry
- arxiv url: http://arxiv.org/abs/2411.00264v1
- Date: Thu, 31 Oct 2024 23:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:24.417856
- Title: TurtleBench: A Visual Programming Benchmark in Turtle Geometry
- Title(参考訳): TurtleBench: タートル幾何学のビジュアルプログラミングベンチマーク
- Authors: Sina Rismanchian, Yasaman Razeghi, Sameer Singh, Shayan Doroudi,
- Abstract要約: TurtleBenchは、幾何学的パターンを解釈するLMMの能力を評価するために設計されたベンチマークである。
評価の結果,LMMがこれらの課題に大きく取り組むことが明らかとなった。
TurtleBench氏は、直感的および視覚的幾何学的理解において、人間とAIのパフォーマンスのギャップを強調している。
- 参考スコア(独自算出の注目度): 14.856377809214747
- License:
- Abstract: Humans have the ability to reason about geometric patterns in images and scenes from a young age. However, developing large multimodal models (LMMs) capable of similar reasoning remains a challenge, highlighting the need for robust evaluation methods to assess these capabilities. We introduce TurtleBench, a benchmark designed to evaluate LMMs' capacity to interpret geometric patterns -- given visual examples, textual instructions, or both -- and generate precise code outputs. Inspired by turtle geometry, a notion used to teach children foundational coding and geometric concepts, TurtleBench features tasks with patterned shapes that have underlying algorithmic logic. Our evaluation reveals that leading LMMs struggle significantly with these tasks, with GPT-4o achieving only 19\% accuracy on the simplest tasks and few-shot prompting only marginally improves their performance ($<2\%$). TurtleBench highlights the gap between human and AI performance in intuitive and visual geometrical understanding, setting the stage for future research in this area. TurtleBench stands as one of the few benchmarks to evaluate the integration of visual understanding and code generation capabilities in LMMs, setting the stage for future research. Code and Dataset for this paper is provided here: https://github.com/sinaris76/TurtleBench
- Abstract(参考訳): 人間は若い頃からの画像やシーンの幾何学的パターンを推論する能力を持っている。
しかし、同様の推論が可能な大規模マルチモーダルモデル(LMM)の開発は依然として課題であり、これらの機能を評価するための堅牢な評価方法の必要性を強調している。
本稿では,幾何学的パターン(視覚例,テキスト命令,あるいはその両方)を解釈し,正確なコード出力を生成するために,LMMの能力を評価するために設計されたベンチマークであるTurtleBenchを紹介する。
タートルベンチは、基礎的なコーディングと幾何学の概念を教えるために使われた概念であるタートル幾何学に触発され、アルゴリズム論理の基礎となるパターン化された形状のタスクを特徴としている。
GPT-4oは最も単純なタスクに対してわずか19倍の精度しか達成せず、少数ショットはパフォーマンスをわずかに改善するだけである(<2\%$)。
TurtleBench氏は、直感的で視覚的な幾何学的理解において、人間とAIのパフォーマンスのギャップを強調し、この分野における将来の研究のステージを設定している。
TurtleBenchは、LMMにおける視覚的理解とコード生成機能の統合を評価する数少ないベンチマークの1つであり、将来の研究の舞台となる。
https://github.com/sinaris76/TurtleBench.com/sinaris76/TurtleBench
関連論文リスト
- Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions [23.294711275107606]
本稿では,画像から2次元の幾何情報を正確に転写するMLLMの能力を評価するベンチマークであるGeoperceptionを紹介する。
次に、幾何学的タスクにおける性能向上のための戦略を探るため、総合的な実証的研究を行う。
我々は,強低レベルの幾何学的知覚に特化して最適化されたモデル群であるEuclidを開発する。
論文 参考訳(メタデータ) (2024-12-11T19:12:13Z) - ScratchEval: Are GPT-4o Smarter than My Child? Evaluating Large Multimodal Models with Visual Programming Challenges [20.316852491762788]
LMMの視覚的プログラミング推論能力を評価するための新しいベンチマークであるScratchEvalを提案する。
ScratchEvalは、子どものプログラミング教育で広く使われているブロックベースのビジュアルプログラミング言語である。
論文 参考訳(メタデータ) (2024-11-28T05:51:45Z) - HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。
各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。
トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - Tangram: Benchmark for Evaluating Geometric Element Recognition in Large Multimodal Models [14.754735603094245]
Tangramは幾何学的要素認識におけるLMMの性能を評価するために設計された新しいベンチマークである。
タングラムは、初等・中等教育試験、コンペティション、教科書から得られた1080の多様な幾何学図で構成されている。
トップパフォーマンスモデルは53.0%の精度しか達成せず、人間のパフォーマンスに比べてかなりの差がある。
論文 参考訳(メタデータ) (2024-08-25T14:47:25Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。