論文の概要: Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming
- arxiv url: http://arxiv.org/abs/2406.09891v1
- Date: Fri, 14 Jun 2024 10:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:14:45.468866
- Title: Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming
- Title(参考訳): 初等視覚プログラミングにおける計算思考テストにおける生成モデルのベンチマーク
- Authors: Victor-Alexandru Pădurean, Adish Singla,
- Abstract要約: GPT-4oやLlama3のような最先端のモデルは、平均的な学生のパフォーマンスとほとんど一致しない。
我々はこれらのモデルを新しい合成データ生成手法を用いて微調整する。
生成モデルにおける計算思考の強化に関するさらなる研究を促進するため、完全な実装とデータセットをリリースする。
- 参考スコア(独自算出の注目度): 22.344985623878408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have demonstrated human-level proficiency in various benchmarks across domains like programming, natural sciences, and general knowledge. Despite these promising results on competitive benchmarks, they still struggle with seemingly simple problem-solving tasks typically carried out by elementary-level students. How do state-of-the-art models perform on standardized tests designed to assess computational thinking and problem-solving skills at schools? In this paper, we curate a novel benchmark involving computational thinking tests grounded in elementary visual programming domains. Our initial results show that state-of-the-art models like GPT-4o and Llama3 barely match the performance of an average school student. To further boost the performance of these models, we fine-tune them using a novel synthetic data generation methodology. The key idea is to develop a comprehensive dataset using symbolic methods that capture different skill levels, ranging from recognition of visual elements to multi-choice quizzes to synthesis-style tasks. We showcase how various aspects of symbolic information in synthetic data help improve fine-tuned models' performance. We will release the full implementation and datasets to facilitate further research on enhancing computational thinking in generative models.
- Abstract(参考訳): 生成モデルは、プログラミング、自然科学、一般知識といった分野にわたる様々なベンチマークにおいて、人間のレベルの習熟度を示している。
これらの有望なベンチマーク結果にもかかわらず、彼らは小学生が通常行う単純な問題解決作業に苦戦している。
学校での計算思考と問題解決のスキルを評価するために設計された標準化されたテストにおいて、最先端モデルはどのように機能するか?
本稿では,基礎的なビジュアルプログラミング領域に根ざした計算思考テストを含む新しいベンチマークをキュレートする。
最初の結果は,GPT-4oやLlama3のような最先端のモデルが,平均的な学生の成績とほとんど一致しないことを示している。
これらのモデルの性能をさらに向上するため、新しい合成データ生成手法を用いて微調整を行う。
キーとなるアイデアは、視覚要素の認識からマルチチョイスクイズ、合成スタイルのタスクまで、さまざまなスキルレベルをキャプチャするシンボリックな手法を使用して包括的なデータセットを開発することである。
合成データにおける記号情報の様々な側面が、微調整モデルの性能向上にどう役立つかを示す。
生成モデルにおける計算思考の強化に関するさらなる研究を促進するため、完全な実装とデータセットをリリースする。
関連論文リスト
- Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment [23.756311527978486]
このベンチマークは、XLogoOnline環境のミニレベルから85の現実世界タスクで構成されている。
モデルの性能を向上させるための微調整パイプラインを開発した。
微調整のLlama3-8BはGPT-4VとLlama3-70Bのモデルを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-17T08:48:02Z) - Computational Models to Study Language Processing in the Human Brain: A Survey [47.81066391664416]
本稿では,脳研究における計算モデルの利用の取り組みを概観し,新たな傾向を浮き彫りにしている。
我々の分析によると、すべてのデータセットで他のモデルよりも優れているモデルはない。
論文 参考訳(メタデータ) (2024-03-20T08:01:22Z) - Generative Forests [23.554594285885273]
私たちは、表データという最も一般的な形式のデータのうちの1つを表わすデータのための生成AIに焦点を合わせています。
本稿では,このような課題に適合する森林モデルの新しい強力なクラスと,強力な収束保証を備えた簡単なトレーニングアルゴリズムを提案する。
これらのタスクに関する追加実験により、我々のモデルは、多種多様な技術手法に対する優れた競争相手になり得ることが判明した。
論文 参考訳(メタデータ) (2023-08-07T14:58:53Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Evaluation of Categorical Generative Models -- Bridging the Gap Between
Real and Synthetic Data [18.142397311464343]
生成モデルに対する適切な拡張性の評価手法を提案する。
我々は、より困難なモデリングタスクに対応する、ますます大きな確率空間を考える。
我々は, 合成生成モデルと最先端のカテゴリー生成モデルの両方について, 合成実験により評価方法を検証する。
論文 参考訳(メタデータ) (2022-10-28T21:05:25Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Synthetic Benchmarks for Scientific Research in Explainable Machine
Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。
実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。
いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:10:21Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。