論文の概要: TurtleAI: Benchmarking Multimodal Models for Visual Programming in Turtle Graphics
- arxiv url: http://arxiv.org/abs/2606.03626v1
- Date: Tue, 02 Jun 2026 13:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.023958
- Title: TurtleAI: Benchmarking Multimodal Models for Visual Programming in Turtle Graphics
- Title(参考訳): TurtleAI: タートルグラフにおけるビジュアルプログラミングのためのマルチモーダルモデルのベンチマーク
- Authors: Chao Wen, Jacqueline Staub, Adish Singla,
- Abstract要約: 視覚言語モデル(VLM)は視覚プログラミングのために研究され、視覚的タスクを解決するためのコードを生成する。
本稿では、Turtle Graphicsドメインの現実的なビジュアルプログラミングタスクに基づいて823のタスクをキュレートしたベンチマークであるTurtleAIを紹介する。
我々は, GPT-5, GPT-4o, Qwen2-VL-72Bを含む20以上のVLMを評価し, 成功率を30%以下に抑えるのに苦慮した。
得られた合成データに対する微細チューニングQwen2-VL-72Bにより, 改良が期待できるデータ生成手法を提案する。
- 参考スコア(独自算出の注目度): 24.2553229691479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have been explored for visual programming, where they generate code to solve visual tasks. However, most prior work focuses on visual programming for productivity; it remains unclear how well current VLMs perform on education-oriented visual programming and what factors limit their performance. To bridge this gap, we introduce TurtleAI, a benchmark containing 823 tasks curated based on real-world visual programming tasks in the Turtle Graphics domain. Solving these tasks requires models to perceive geometric patterns, reason about spatial relationships, and synthesize Python code that faithfully reproduces geometric patterns. We evaluate 20+ VLMs, including GPT-5, GPT-4o, and Qwen2-VL-72B, and find that they struggle significantly, with most achieving success rates below 30%. To address these limitations, we propose a data generation technique that requires only a small set of seed samples. Fine-tuning Qwen2-VL-72B on the resulting synthetic data yields an improvement of about 20% on real-world tasks. Our failure analysis reveals that GPT-4o struggles with spatial reasoning and precise visual replication, whereas fine-tuning primarily improves the alignment between visual reasoning and code implementation.
- Abstract(参考訳): 視覚言語モデル(VLM)は視覚プログラミングのために研究され、視覚的タスクを解決するためのコードを生成する。
しかしながら、これまでのほとんどの研究は生産性のためのビジュアルプログラミングに焦点を合わせており、現在のVLMが教育指向のビジュアルプログラミングにどの程度効果があるのか、その性能を制限する要因は何かは不明である。
このギャップを埋めるためにTurtleAIを紹介します。Turtle Graphicsドメインの実際のビジュアルプログラミングタスクに基づいて823のタスクをキュレートしたベンチマークです。
これらの課題を解決するためには、幾何学的パターンを知覚し、空間的関係を推論し、幾何学的パターンを忠実に再現するPythonコードを合成するモデルが必要である。
我々は, GPT-5, GPT-4o, Qwen2-VL-72Bを含む20以上のVLMを評価し, 成功率を30%以下に抑えるのに苦慮した。
これらの制約に対処するために,少量のシードサンプルしか必要としないデータ生成手法を提案する。
合成データを微調整したQwen2-VL-72Bは、現実世界のタスクで約20%改善する。
我々の故障解析では,GPT-4oは空間的推論と正確な視覚的複製に苦しむのに対し,微調整は視覚的推論とコード実装の整合性を改善する。
関連論文リスト
- CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images [69.93976232543066]
本稿では,コード駆動型Chain-of-ThoughtパラダイムであるCodePlot-CoTを提案する。
そこで我々はまず,視覚推論を用いた数学問題のための大規模バイリンガルデータセットとベンチマークであるMath-VRを構築した。
我々のモデルは,提案したコード駆動推論パラダイムの有効性を十分に検証し,ベースモデルよりも最大で21%向上する。
論文 参考訳(メタデータ) (2025-10-13T17:59:55Z) - Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - TurtleBench: A Visual Programming Benchmark in Turtle Geometry [14.856377809214747]
本稿では,LMMの幾何学的パターンの解釈能力を評価するためのベンチマークであるTurtleを紹介する。
TurtleBenchは、アルゴリズムロジックの基礎となるパターン化された形状のタスクを特徴としている。
評価の結果,LMMがこれらの課題に大きく取り組むことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-31T23:52:06Z) - Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment [24.2553229691479]
大規模言語とマルチモーダルモデルは、特定のスキルに焦点を当てた様々なベンチマークで顕著な成功を収めている。
しかし、これらのモデルがこれらのスキルの組み合わせを必要とするタスクでどれだけうまく機能するかは不明だ。
本稿では,XLogoOnlineビジュアルプログラミング環境における実環境タスクに基づいて,新しいプログラム合成ベンチマークをキュレートする。
論文 参考訳(メタデータ) (2024-06-17T08:48:02Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。