論文の概要: ScratchEval : A Multimodal Evaluation Framework for LLMs in Block-Based Programming
- arxiv url: http://arxiv.org/abs/2602.00757v1
- Date: Sat, 31 Jan 2026 14:44:22 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-02-03 14:18:14.197856
- Title: ScratchEval : A Multimodal Evaluation Framework for LLMs in Block-Based Programming
- Title(参考訳): ScratchEval : ブロック型プログラミングにおけるLLMのマルチモーダル評価フレームワーク
- Authors: Yuan Si, Simeng Han, Daming Li, Hanyuan Shi, Jialu Zhang,
- Abstract要約: スクラッチプログラムは、深くネストした非線形構造、イベント駆動のスプライト、およびコードとマルチメディアアセット間の密結合を示す。
ScratchEvalは、ScratchプログラムのLLMベースの修復を評価するために設計された最初の実行可能ベンチマークである。
このベンチマークは、自動プロジェクトマイニングとトリガーアウトカムセマンティクスのエキスパートバリデーションを組み合わせた、ヒューマン・イン・ザ・ループパイプラインを通じて構築されている。
- 参考スコア(独自算出の注目度): 3.935975887408409
- License:
- Abstract: LLMs have achieved strong performance on text-based programming tasks, yet they remain unreliable for block-based languages such as Scratch. Scratch programs exhibit deeply nested, non-linear structures, event-driven concurrency across multiple sprites, and tight coupling between code and multimedia assets, properties that differ fundamentally from textual code. As a result, LLMs often misinterpret Scratch semantics and generate large, invasive edits that are syntactically valid but semantically incorrect when repairing buggy programs. We introduce ScratchEval, the first executable benchmark designed to evaluate LLM-based repair for Scratch programs, covering program understanding, debugging, analysis, and repair. The benchmark contains 100 curated Scratch projects from the public repository, selected for structural and semantic complexity. Each project is paired with executable test suites, bug descriptions with corresponding fixes, block-level edit constraints defining minimal semantically correct repairs, and required multimedia assets. The benchmark is constructed through a human-in-the-loop pipeline combining automated project mining with expert validation of trigger-outcome semantics and representative bug patterns, with emphasis on event ordering, concurrency, and state management. To enable rigorous and reproducible evaluation, we propose a three-layer executable protocol measuring functional correctness via VM-level execution, repair quality using block-level edit distance and behavioral trajectory comparisons, and explanation quality via structured rubrics assessing alignment between model reasoning and generated patches. Using ScratchEval, we study domain-specific fine-tuning, training data effectiveness, and model generalization to unseen bug types. ScratchEval provides a reproducible foundation for evaluating and post-training LLMs on block-based programming tasks.
- Abstract(参考訳): LLMはテキストベースのプログラミングタスクでは高いパフォーマンスを達成しているが、Scratchのようなブロックベースの言語では信頼性が低い。
スクラッチプログラムは、深くネストされた非線形構造、複数のスプライトをまたいだイベント駆動並行性、そして、コードとマルチメディアアセットの密結合、そして基本的にテキストコードと異なる特性を示す。
結果として、LLMはスクラッチのセマンティクスを誤って解釈し、バギープログラムを修復する際には、構文的に妥当だが意味的に不正確である大規模な侵入的な編集を生成する。
ScratchEvalは、ScratchプログラムのLCMベースの修復を評価するために設計された最初の実行可能なベンチマークであり、プログラムの理解、デバッグ、解析、修復をカバーしている。
ベンチマークにはパブリックリポジトリから100のキュレートされたScratchプロジェクトが含まれており、構造的およびセマンティックな複雑さのために選択されている。
各プロジェクトには、実行可能なテストスイート、対応する修正を伴うバグ記述、最小限の意味論的修正を定義するブロックレベルの編集制約、必要なマルチメディアアセットが組み合わされている。
このベンチマークは、自動プロジェクトマイニングとトリガーアウトカムセマンティクスと代表的なバグパターンのエキスパート検証を組み合わせた、ヒューマン・イン・ザ・ループパイプラインを通じて構築され、イベントの順序付け、並行処理、状態管理に重点を置いている。
厳密かつ再現可能な評価を可能にするために,VMレベルの実行による機能的正当性,ブロックレベルの編集距離と動作軌跡比較を用いた修復品質,モデル推論と生成されたパッチの整合性を評価する構造化ルーリックによる説明品質,3層実行可能プロトコルを提案する。
ScratchEvalを用いて、未確認のバグタイプに対するドメイン固有の微調整、トレーニングデータの有効性、モデル一般化について検討する。
ScratchEvalは、ブロックベースのプログラミングタスクでLLMを評価し後トレーニングするための再現可能な基盤を提供する。
関連論文リスト
- CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。
また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-22T14:27:17Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Revisiting Evolutionary Program Repair via Code Language Model [11.711739409758476]
本稿では,多目的進化アルゴリズムをCLMと統合し,Javaプロジェクトのマルチロケーションバグを修正するARJA-CLMを提案する。
また,提案手法は,CLMが候補文を生成するための,アクセス可能なフィールドとメソッドに関する追加情報により,プロンプトを充実させる。
論文 参考訳(メタデータ) (2024-08-20T01:57:45Z) - Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。
競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。
本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-08T18:23:59Z) - MORepair: Teaching LLMs to Repair Code via Multi-Objective Fine-tuning [25.03477973238162]
プログラム修復タスクに対するLLM(Large Language Model)の微調整アプローチは、コード変更の背後にあるロジックを推論する必要性を見落としている。
サイズやアーキテクチャの異なる4つのオープンソース LLM にMOobjective を適用する。
我々の微調整戦略は、最先端のアプローチよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-04-19T05:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。