Fugu-MT 論文翻訳(概要): TurtleBench: A Visual Programming Benchmark in Turtle Geometry

論文の概要: TurtleBench: A Visual Programming Benchmark in Turtle Geometry

arxiv url: http://arxiv.org/abs/2411.00264v1
Date: Thu, 31 Oct 2024 23:52:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.140732
Title: TurtleBench: A Visual Programming Benchmark in Turtle Geometry
Title（参考訳）: TurtleBench: タートル幾何学のビジュアルプログラミングベンチマーク
Authors: Sina Rismanchian, Yasaman Razeghi, Sameer Singh, Shayan Doroudi,
Abstract要約: TurtleBenchは、幾何学的パターンを解釈するLMMの能力を評価するために設計されたベンチマークである。評価の結果,LMMがこれらの課題に大きく取り組むことが明らかとなった。 TurtleBench氏は、直感的および視覚的幾何学的理解において、人間とAIのパフォーマンスのギャップを強調している。
参考スコア（独自算出の注目度）: 14.856377809214747
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans have the ability to reason about geometric patterns in images and scenes from a young age. However, developing large multimodal models (LMMs) capable of similar reasoning remains a challenge, highlighting the need for robust evaluation methods to assess these capabilities. We introduce TurtleBench, a benchmark designed to evaluate LMMs' capacity to interpret geometric patterns -- given visual examples, textual instructions, or both -- and generate precise code outputs. Inspired by turtle geometry, a notion used to teach children foundational coding and geometric concepts, TurtleBench features tasks with patterned shapes that have underlying algorithmic logic. Our evaluation reveals that leading LMMs struggle significantly with these tasks, with GPT-4o achieving only 19\% accuracy on the simplest tasks and few-shot prompting only marginally improves their performance ($<2\%$). TurtleBench highlights the gap between human and AI performance in intuitive and visual geometrical understanding, setting the stage for future research in this area. TurtleBench stands as one of the few benchmarks to evaluate the integration of visual understanding and code generation capabilities in LMMs, setting the stage for future research. Code and Dataset for this paper is provided here: https://github.com/sinaris76/TurtleBench
Abstract（参考訳）: 人間は若い頃からの画像やシーンの幾何学的パターンを推論する能力を持っている。しかし、同様の推論が可能な大規模マルチモーダルモデル(LMM)の開発は依然として課題であり、これらの機能を評価するための堅牢な評価方法の必要性を強調している。本稿では,幾何学的パターン(視覚例,テキスト命令,あるいはその両方)を解釈し,正確なコード出力を生成するために,LMMの能力を評価するために設計されたベンチマークであるTurtleBenchを紹介する。タートルベンチは、基礎的なコーディングと幾何学の概念を教えるために使われた概念であるタートル幾何学に触発され、アルゴリズム論理の基礎となるパターン化された形状のタスクを特徴としている。 GPT-4oは最も単純なタスクに対してわずか19倍の精度しか達成せず、少数ショットはパフォーマンスをわずかに改善するだけである(<2\%$)。 TurtleBench氏は、直感的で視覚的な幾何学的理解において、人間とAIのパフォーマンスのギャップを強調し、この分野における将来の研究のステージを設定している。 TurtleBenchは、LMMにおける視覚的理解とコード生成機能の統合を評価する数少ないベンチマークの1つであり、将来の研究の舞台となる。 https://github.com/sinaris76/TurtleBench.com/sinaris76/TurtleBench

関連論文リスト

OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks [77.19223035769248]
大規模マルチモーダルモデル(LMM)の最近のブレークスルーは、画像生成のための汎用的な指示に従うのに顕著な熟練性を示している。 OmniGenBenchは、最先端のLMMの指示追従能力を評価するために、精密に設計された新しいベンチマークである。我々のOmniGenBenchには57の多様なサブタスクが含まれており、それらが要求する特定のモデル能力に応じて体系的に分類されている。
論文参考訳（メタデータ） (2025-05-24T16:29:34Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文参考訳（メタデータ） (2025-01-11T04:08:44Z)
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions [23.294711275107606]
本稿では,画像から2次元の幾何情報を正確に転写するMLLMの能力を評価するベンチマークであるGeoperceptionを紹介する。次に、幾何学的タスクにおける性能向上のための戦略を探るため、総合的な実証的研究を行う。我々は,強低レベルの幾何学的知覚に特化して最適化されたモデル群であるEuclidを開発する。
論文参考訳（メタデータ） (2024-12-11T19:12:13Z)
ScratchEval: Are GPT-4o Smarter than My Child? Evaluating Large Multimodal Models with Visual Programming Challenges [20.316852491762788]
LMMの視覚的プログラミング推論能力を評価するための新しいベンチマークであるScratchEvalを提案する。 ScratchEvalは、子どものプログラミング教育で広く使われているブロックベースのビジュアルプログラミング言語である。
論文参考訳（メタデータ） (2024-11-28T05:51:45Z)
GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models [10.443672399225983]
視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
論文参考訳（メタデータ） (2024-10-17T12:56:52Z)
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。 HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文参考訳（メタデータ） (2024-10-16T09:04:57Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Tangram: A Challenging Benchmark for Geometric Element Recognizing [4.97503948320156]
Tangramは幾何学的認識要素上でのLMMの性能を評価するために設計された新しいベンチマークである。タングラムには、初等・中等教育試験、コンペティション、教科書から得られた1080の多様な幾何学図が含まれている。単純なけれども興味深い”カウントタスクを実行するために、モデルが必要です。すべてのテストされたモデルで上位のパフォーマーの全体的な精度は56.8%に過ぎず、人間のパフォーマンスと比較して大きな差がある。
論文参考訳（メタデータ） (2024-08-25T14:47:25Z)
Can Large Language Models Understand Symbolic Graphics Programs? [136.5639211254501]
シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。シンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。 LLMの推理性能は概して優れていた。
論文参考訳（メタデータ） (2024-08-15T17:59:57Z)
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。 VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文参考訳（メタデータ） (2024-08-12T17:44:17Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文参考訳（メタデータ） (2024-01-16T08:08:01Z)
PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs [1.9207412600219353]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。我々は,38のプログラミング概念をバランスよく表現した185個の手作りプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文参考訳（メタデータ） (2024-01-08T12:36:43Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文参考訳（メタデータ） (2023-08-03T07:00:04Z)
Great Truths are Always Simple: A Rather Simple Knowledge Encoder for Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文参考訳（メタデータ） (2022-05-04T01:27:36Z)
Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文参考訳（メタデータ） (2021-03-04T15:34:43Z)
Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文参考訳（メタデータ） (2020-04-28T09:15:50Z)
Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2020-03-23T12:28:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。