論文の概要: EcoScratch: Cost-Effective Multimodal Repair for Scratch Using Execution Feedback
- arxiv url: http://arxiv.org/abs/2603.29624v1
- Date: Tue, 31 Mar 2026 11:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.584249
- Title: EcoScratch: Cost-Effective Multimodal Repair for Scratch Using Execution Feedback
- Title(参考訳): EcoScratch: 実行フィードバックを用いたスクラッチのコスト効果マルチモーダル修復
- Authors: Yuan Si, Ming Wang, Daming Li, Hanyuan Shi, Jialu Zhang,
- Abstract要約: EcoScratchは、ライトウェイトなランタイム信号を使用して、次の試みがテキストのみであり続けるか、マルチモーダルプロンプトにエスカレートするかを判断する修復パイプラインである。
我々は,100個のScratch補修プロジェクトを4つのコントローラ設定で評価し,4800個の補修軌道を得た。
最高世代(30.3%)に到達し、同じ有界軌道予算の下での2つの非適応的マルチモーダルベースライン(テキストのみの最低コストフロア)よりも平均コストと局所実行エネルギーを削減した。
- 参考スコア(独自算出の注目度): 3.6908036186618314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scratch is the most popular programming environment for novices, with over 1.15 billion projects created worldwide. Unlike traditional languages, correctness in Scratch is defined by visible behavior on the stage rather than by code structure alone, so programs that appear correct in the workspace can still fail at runtime due to timing, event ordering, or cross-sprite interactions. Visual execution evidence such as gameplay videos can therefore be essential for diagnosis and repair. However, capturing and processing this evidence inside an automated repair loop introduces substantial overhead. Probing execution, recording stage behavior, rebuilding executable .sb3 projects, and verifying candidate fixes consume time, monetary cost, and resources across an entire repair trajectory rather than a single model call. We present EcoScratch, a repair pipeline that uses lightweight runtime signals to decide whether the next attempt stays text-only or escalates to multimodal prompting. The controller also sets the JSON Patch budget and verification effort, so evidence choice and repair budget are coupled inside the same decision. EcoScratch rebuilds candidate fixes into executable .sb3 projects and records per-trajectory traces, monetary cost, local-runtime energy. We evaluate 12 models on 100 executable Scratch repair projects under four controller settings, yielding 4800 repair trajectories. In this matrix, a selective multimodal policy gives the strongest observed success-cost-energy tradeoff. It reaches the highest generation success (30.3%) while using less average cost and local-runtime energy than the two non-adaptive multimodal baselines under the same bounded trajectory budget; text-only remains the lowest-cost floor. Across the evaluated matrix, multimodal evidence helps most when it is used to control escalation within a bounded trajectory budget rather than applied uniformly.
- Abstract(参考訳): Scratchは初心者向けの最も人気のあるプログラミング環境であり、世界中で15億以上のプロジェクトが作成されている。
従来の言語とは異なり、Scratchの正確性はコード構造だけでではなくステージ上の可視的な振る舞いによって定義されているため、ワークスペースで正しいように見えるプログラムは、タイミング、イベント順序、あるいはクロススプライトインタラクションによって実行時に失敗する可能性がある。
したがって、ゲームプレイビデオのような視覚的実行証拠は診断と修復に不可欠である。
しかし、この証拠を自動修理ループ内でキャプチャして処理することは、かなりのオーバーヘッドをもたらす。
実行のプロービング、ステージの振る舞いの記録、実行可能.NETファイルの再構築。
sb3は、単一のモデル呼び出しではなく、修理軌道全体にわたって時間、金銭的コスト、リソースを消費する。
EcoScratchは、ライトウェイトなランタイム信号を使用して、次の試みがテキストのみであり続けるか、マルチモーダルプロンプトにエスカレートするかを判断する修復パイプラインである。
コントローラはJSON Patchの予算と検証の労力も設定するので、エビデンスの選択と修復の予算は、同じ決定の中で結合される。
EcoScratchは、候補修正を実行可能な.NETファイルに再構築する。
sb3は、軌跡ごとのプロジェクトと記録、金銭的コスト、ローカル・ランタイム・エネルギ。
我々は,100個のScratch補修プロジェクトを4つのコントローラ設定で評価し,4800個の補修軌道を得た。
この行列において、選択的なマルチモーダルポリシーは、最も観測された成功-コスト-エネルギーのトレードオフを与える。
最高世代(30.3%)に到達し、同じ有界軌道予算の下での2つの非適応的マルチモーダルベースラインよりも平均コストと局所実行エネルギーを少なくし、テキストのみのフロアは最低価格のままである。
評価された行列全体にわたって、マルチモーダルなエビデンスは、一様に適用するのではなく、有界軌道予算内でのエスカレーションを制御するのに最も役立ちます。
関連論文リスト
- FailureMem: A Failure-Aware Multimodal Framework for Autonomous Software Repair [45.42550492783294]
MAPR(Multimodal Automated Program repair)は、ソースコード、テキストのイシュー記述、GUIスクリーンショットなどのビジュアルアーティファクトを共同で推論することを要求することで、従来のプログラム修復を拡張している。
我々は,3つの主要なメカニズムを統合したマルチモーダル修復フレームワークであるFailureMemを提案する。これは,構造的ローカライゼーションとフレキシブルな推論とをバランスさせるハイブリッドワークフローエージェントアーキテクチャ,領域レベルの視覚的接地を可能にするアクティブな認識ツール,過去の修復の試みを再利用可能なガイダンスに変換するFailure Memory Bankである。
論文 参考訳(メタデータ) (2026-03-18T15:24:22Z) - ScratchEval : A Multimodal Evaluation Framework for LLMs in Block-Based Programming [3.935975887408409]
スクラッチプログラムは、深くネストした非線形構造、イベント駆動のスプライト、およびコードとマルチメディアアセット間の密結合を示す。
ScratchEvalは、ScratchプログラムのLLMベースの修復を評価するために設計された最初の実行可能ベンチマークである。
このベンチマークは、自動プロジェクトマイニングとトリガーアウトカムセマンティクスのエキスパートバリデーションを組み合わせた、ヒューマン・イン・ザ・ループパイプラインを通じて構築されている。
論文 参考訳(メタデータ) (2026-01-31T14:44:22Z) - Outcome-Conditioned Reasoning Distillation for Resolving Software Issues [49.16055123488827]
本稿では, 検証済みパッチを監督として, リポジトリ内問題を解決したO-CRD(Outcome-Conditioned Reasoning Distillation)フレームワークを提案する。
歴史的修正から始まり、検証結果から段階的な修理トレースを後方に再構築する。
SWE-Bench Liteでは、GPT-4oではPass@1が10.4%、DeepSeek-V3では8.6%、GPT-5では10.3%増加する。
論文 参考訳(メタデータ) (2026-01-30T18:25:39Z) - The 4/$δ$ Bound: Designing Predictable LLM-Verifier Systems for Formal Method Guarantee [5.345468714252351]
この研究は LLM-Verifier Convergence Theorem の開発によってギャップを埋める。
LLMと検証器の相互作用を離散時間マルコフ連鎖としてモデル化する。
われわれはこの予測を90,000件以上の治験を含む広範囲な実証キャンペーンでストレステストした。
論文 参考訳(メタデータ) (2025-11-30T22:19:09Z) - GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Boosting Redundancy-based Automated Program Repair by Fine-grained Pattern Mining [18.7107522872479]
本稿では,効果的なパッチ生成を導くための2段階のパターンマイニングプロセスを含むRepattという新しい修復手法を提案する。
我々は、広く使われているDefects4Jベンチマークの実験を行い、Repattを10の最先端のAPRアプローチと比較した。
論文 参考訳(メタデータ) (2023-12-26T08:42:32Z) - Fast Online Value-Maximizing Prediction Sets with Conformal Cost Control [63.90454433380153]
多くの実世界のマルチラベル予測問題は、下流の使用によって規定される特定の要求を満たす必要がある設定値の予測を含む。
このような要件を、$textitvalue$と$textitcost$を別々にエンコードし、互いに競合する典型的なシナリオに焦点を当てます。
このようなシナリオのコストを制御しながら、価値を最大化するために、FavMacと呼ばれる一般的なパイプラインを提案する。
論文 参考訳(メタデータ) (2023-02-02T02:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。