論文の概要: TurtleBench: A Visual Programming Benchmark in Turtle Geometry
- arxiv url: http://arxiv.org/abs/2411.00264v1
- Date: Thu, 31 Oct 2024 23:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:24.417856
- Title: TurtleBench: A Visual Programming Benchmark in Turtle Geometry
- Title(参考訳): TurtleBench: タートル幾何学のビジュアルプログラミングベンチマーク
- Authors: Sina Rismanchian, Yasaman Razeghi, Sameer Singh, Shayan Doroudi,
- Abstract要約: TurtleBenchは、幾何学的パターンを解釈するLMMの能力を評価するために設計されたベンチマークである。
評価の結果,LMMがこれらの課題に大きく取り組むことが明らかとなった。
TurtleBench氏は、直感的および視覚的幾何学的理解において、人間とAIのパフォーマンスのギャップを強調している。
- 参考スコア(独自算出の注目度): 14.856377809214747
- License:
- Abstract: Humans have the ability to reason about geometric patterns in images and scenes from a young age. However, developing large multimodal models (LMMs) capable of similar reasoning remains a challenge, highlighting the need for robust evaluation methods to assess these capabilities. We introduce TurtleBench, a benchmark designed to evaluate LMMs' capacity to interpret geometric patterns -- given visual examples, textual instructions, or both -- and generate precise code outputs. Inspired by turtle geometry, a notion used to teach children foundational coding and geometric concepts, TurtleBench features tasks with patterned shapes that have underlying algorithmic logic. Our evaluation reveals that leading LMMs struggle significantly with these tasks, with GPT-4o achieving only 19\% accuracy on the simplest tasks and few-shot prompting only marginally improves their performance ($<2\%$). TurtleBench highlights the gap between human and AI performance in intuitive and visual geometrical understanding, setting the stage for future research in this area. TurtleBench stands as one of the few benchmarks to evaluate the integration of visual understanding and code generation capabilities in LMMs, setting the stage for future research. Code and Dataset for this paper is provided here: https://github.com/sinaris76/TurtleBench
- Abstract(参考訳): 人間は若い頃からの画像やシーンの幾何学的パターンを推論する能力を持っている。
しかし、同様の推論が可能な大規模マルチモーダルモデル(LMM)の開発は依然として課題であり、これらの機能を評価するための堅牢な評価方法の必要性を強調している。
本稿では,幾何学的パターン(視覚例,テキスト命令,あるいはその両方)を解釈し,正確なコード出力を生成するために,LMMの能力を評価するために設計されたベンチマークであるTurtleBenchを紹介する。
タートルベンチは、基礎的なコーディングと幾何学の概念を教えるために使われた概念であるタートル幾何学に触発され、アルゴリズム論理の基礎となるパターン化された形状のタスクを特徴としている。
GPT-4oは最も単純なタスクに対してわずか19倍の精度しか達成せず、少数ショットはパフォーマンスをわずかに改善するだけである(<2\%$)。
TurtleBench氏は、直感的で視覚的な幾何学的理解において、人間とAIのパフォーマンスのギャップを強調し、この分野における将来の研究のステージを設定している。
TurtleBenchは、LMMにおける視覚的理解とコード生成機能の統合を評価する数少ないベンチマークの1つであり、将来の研究の舞台となる。
https://github.com/sinaris76/TurtleBench.com/sinaris76/TurtleBench
関連論文リスト
- GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models [10.443672399225983]
視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。
彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。
モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
論文 参考訳(メタデータ) (2024-10-17T12:56:52Z) - HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。
HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。
我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - Tangram: A Challenging Benchmark for Geometric Element Recognizing [4.97503948320156]
Tangramは幾何学的認識要素上でのLMMの性能を評価するために設計された新しいベンチマークである。
タングラムには、初等・中等教育試験、コンペティション、教科書から得られた1080の多様な幾何学図が含まれている。
単純なけれども興味深い”カウントタスクを実行するために、モデルが必要です。
すべてのテストされたモデルで上位のパフォーマーの全体的な精度は56.8%に過ぎず、人間のパフォーマンスと比較して大きな差がある。
論文 参考訳(メタデータ) (2024-08-25T14:47:25Z) - Can Large Language Models Understand Symbolic Graphics Programs? [136.5639211254501]
シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。
シンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。
LLMの推理性能は概して優れていた。
論文 参考訳(メタデータ) (2024-08-15T17:59:57Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs [1.9207412600219353]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。
我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。
我々は,38のプログラミング概念をバランスよく表現した185個の手作りプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:36:43Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。