論文の概要: Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment
- arxiv url: http://arxiv.org/abs/2406.11334v1
- Date: Mon, 17 Jun 2024 08:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:41:08.133222
- Title: Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment
- Title(参考訳): XLogoオンライン環境におけるビジュアルプログラミングのためのプログラム合成ベンチマーク
- Authors: Chao Wen, Jacqueline Staub, Adish Singla,
- Abstract要約: このベンチマークは、XLogoOnline環境のミニレベルから85の現実世界タスクで構成されている。
モデルの性能を向上させるための微調整パイプラインを開発した。
微調整のLlama3-8BはGPT-4VとLlama3-70Bのモデルを大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 23.756311527978486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language and multimodal models have shown remarkable successes on various benchmarks focused on specific skills such as general-purpose programming, natural language understanding, math word problem-solving, and visual question answering. However, it is unclear how well these models perform on tasks that require a combination of these skills. In this paper, we curate a novel program synthesis benchmark based on the XLogoOnline visual programming environment. The benchmark comprises 85 real-world tasks from the Mini-level of the XLogoOnline environment, each requiring a combination of different skills such as spatial planning, basic programming, and logical reasoning. Our evaluation shows that current state-of-the-art models like GPT-4V and Llama3-70B struggle to solve these tasks, achieving only 20% and 2.35% success rates. Next, we develop a fine-tuning pipeline to boost the performance of models by leveraging a large-scale synthetic training dataset with over 80000 tasks. Moreover, we showcase how emulator-driven feedback can be used to design a curriculum over training data distribution. We showcase that a fine-tuned Llama3-8B drastically outperforms GPT-4V and Llama3-70B models, and provide an in-depth analysis of the models' expertise across different skill dimensions. We will publicly release the benchmark for future research on program synthesis in visual programming.
- Abstract(参考訳): 大規模言語とマルチモーダルモデルは、汎用プログラミング、自然言語理解、数学語問題解決、視覚的質問応答といった特定のスキルに焦点を当てた様々なベンチマークで顕著な成功を収めている。
しかし、これらのモデルがこれらのスキルの組み合わせを必要とするタスクでどれだけうまく機能するかは不明だ。
本稿では,XLogoOnlineビジュアルプログラミング環境に基づく新しいプログラム合成ベンチマークをキュレートする。
このベンチマークは、XLogoOnline環境のミニレベルから85の現実世界タスクで構成され、それぞれが空間計画、基本的なプログラミング、論理的推論といった異なるスキルの組み合わせを必要とする。
GPT-4VやLlama3-70Bのような現在の最先端モデルではこれらの課題が解決できず、成功率は20%と2.35%に過ぎなかった。
次に、80000以上のタスクを持つ大規模合成トレーニングデータセットを活用することにより、モデルの性能を向上させるための微調整パイプラインを開発する。
さらに,エミュレータによるフィードバックを用いて,データ配布のトレーニングよりもカリキュラムを設計する方法を示す。
Llama3-8BはGPT-4VおよびLlama3-70Bモデルよりも大幅に優れており、異なるスキル次元にわたるモデルの専門知識を詳細に分析する。
ビジュアルプログラミングにおけるプログラム合成に関する今後の研究のためのベンチマークを公開する。
関連論文リスト
- In-Context Code-Text Learning for Bimodal Software Engineering [26.0027882745058]
バイモーダルなソフトウェア分析は、大きな言語モデルの出現とともに、当初は手の届くところにあるように見えた。
コードテキストのバイモーダル性に対するコンテキスト内学習は有望な道であると仮定する。
我々は、23のソフトウェアエンジニアリングタスクを含む多様なデータセットを考察し、コンテキスト内学習フォーマットで変換する。
論文 参考訳(メタデータ) (2024-10-08T19:42:00Z) - UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling [22.885385107905222]
我々は50以上の視覚言語モデル(VLM)ベンチマークの統一実装であるUniBenchを紹介する。
約60の公開ビジョン言語モデルを評価することで,UniBenchの進歩度測定に有効であることを示す。
また、59モデルにまたがる50以上のベンチマークと比較の完全なセットと、1つのGPUで5分で実行されるベンチマークの蒸留セットを備えた、簡単に実行できるUniBenchコードベースもリリースしました。
論文 参考訳(メタデータ) (2024-08-09T01:41:05Z) - Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming [22.344985623878408]
GPT-4oやLlama3のような最先端のモデルは、平均的な学生のパフォーマンスとほとんど一致しない。
我々はこれらのモデルを新しい合成データ生成手法を用いて微調整する。
生成モデルにおける計算思考の強化に関するさらなる研究を促進するため、完全な実装とデータセットをリリースする。
論文 参考訳(メタデータ) (2024-06-14T10:02:52Z) - CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code [24.936022005837415]
我々は、70以上のモデル、40以上の評価タスク、180以上のデータセット、900以上の関連する作業を含む、言語モデルによるソフトウェア工学の最近の進歩についてレビューする。
私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、特にコードで事前訓練された特殊なモデルに分解します。
また、要件エンジニアリング、テスト、デプロイメント、オペレーションを含む他のソフトウェアエンジニアリング活動において、LCMのアプリケーションをプログラミングし、レビューする余地もあります。
論文 参考訳(メタデータ) (2023-11-14T08:34:26Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。