論文の概要: A Systematic Study of Time Limit Exceeded Errors in Online Programming Assignments
- arxiv url: http://arxiv.org/abs/2510.14339v1
- Date: Thu, 16 Oct 2025 06:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.743732
- Title: A Systematic Study of Time Limit Exceeded Errors in Online Programming Assignments
- Title(参考訳): オンラインプログラミングアサインメントにおける時間制限排他誤差の体系的研究
- Authors: Jialu Zhang, Jialiang Gu, Wangmeiyu Zhang, José Pablo Cambronero, John Kolesar, Ruzica Piskac, Daming Li, Hanyuan Shi,
- Abstract要約: 本稿では,オンラインプログラミングにおけるTLEエラーに関する大規模な実証的研究について述べる。
我々は1000のCodeforcesをTLEエラーで分析し、その根本原因を分類し、ユーザーがどのように修正しようとしたかを追跡した。
我々は,TLEエラーに特化して設計された最初の自動修復ツールであるNettleと,TLE修復を評価する最初のフレームワークであるNettle-Evalを紹介する。
- 参考スコア(独自算出の注目度): 3.5043598215781393
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Online programming platforms such as Codeforces and LeetCode attract millions of users seeking to learn to program or refine their skills for industry interviews. A major challenge for these users is the Time Limit Exceeded (TLE) error, triggered when a program exceeds the execution time bound. Although designed as a performance safeguard, TLE errors are difficult to resolve: error messages provide no diagnostic insight, platform support is minimal, and existing debugging tools offer little help. As a result, many users abandon their submissions after repeated TLE failures. This paper presents the first large-scale empirical study of TLE errors in online programming. We manually analyzed 1000 Codeforces submissions with TLE errors, classified their root causes, and traced how users attempted to fix them. Our analysis shows that TLE errors often arise not only from inefficient algorithms but also from infinite loops, improper data structure use, and inefficient I/O, challenging the conventional view that TLEs are purely performance issues. Guided by these findings, we introduce Nettle, the first automated repair tool specifically designed for TLE errors, and Nettle-Eval, the first framework for evaluating TLE repairs. Integrating LLMs with targeted automated feedback generated by the compiler and test cases, Nettle produces small, correct code edits that eliminate TLEs while preserving functionality. Evaluated on the same 1000 real-world cases, Nettle achieves a 98.5% fix rate, far exceeding the strongest LLM baseline, and all of its repairs pass both Nettle-Eval and the platform's official checker, confirming the reliability of our framework.
- Abstract(参考訳): CodeforcesやLeetCodeといったオンラインプログラミングプラットフォームは、業界インタビューのためにスキルをプログラムしたり洗練させたりすることを学ぼうとする何百万人ものユーザーを惹きつけている。
これらのユーザにとって大きな課題は、プログラムが実行時間を超えるとトリガーされるTLE(Time Limit Exceeded)エラーである。
エラーメッセージは診断上の洞察を提供しず、プラットフォームのサポートは最小限であり、既存のデバッグツールはほとんど役に立たない。
その結果、TLEの失敗を繰り返して、多くのユーザが提出を放棄した。
本稿では,オンラインプログラミングにおけるTLEエラーに関する大規模な実証的研究について述べる。
私たちは手動で1000のCodeforcesをTLEエラーで分析し、その根本原因を分類し、ユーザーがどのように修正しようとしたかを追跡しました。
解析の結果、TLEエラーは非効率なアルゴリズムだけでなく、無限ループ、不適切なデータ構造の使用、非効率なI/Oから生じることが多く、TLEが純粋に性能上の問題であるという従来の見方に挑戦する。
これらの知見に導かれて、TLEエラーに特化して設計された最初の自動修復ツールであるNettleと、TLE修復を評価するための最初のフレームワークであるNettle-Evalを紹介した。
コンパイラとテストケースによって生成された目標の自動フィードバックとLLMを統合することで、Nettleは機能を維持しながらTLEを排除した小さな、正しいコード編集を生成する。
同じ1000の現実世界のケースで評価され、Nettleは98.5%の修正率を獲得し、最強のLCMベースラインをはるかに上回り、すべての修復はNettle-Evalとプラットフォームの公式チェッカーの両方を通過し、我々のフレームワークの信頼性を確認した。
関連論文リスト
- LLM-Based Repair of Static Nullability Errors [14.857404348789201]
我々は、nullability Checkerからnullabilityエラーを解決するための構造化ワークフローにLLMを統合するシステムであるNullRepairを提案する。
NullRepairは、最先端のアノテーション推論技術を適用した後に残るエラーの平均72%を解決している。
NullRepair は、ナリープロップされた LLM とは異なり、プログラムのセマンティクスもほとんど保存している。
論文 参考訳(メタデータ) (2025-07-28T09:55:04Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - Counterexample Guided Program Repair Using Zero-Shot Learning and MaxSAT-based Fault Localization [0.0]
導入プログラミング課題(IPAs)のための自動プログラム修復(APR)は、多数の学生の参加によって動機付けられている。
本稿では,FMに基づく障害局所化とLarge Language Models(LLMs)の長所を組み合わせた新しいアプローチを提案する。
提案手法では,MaxSATに基づく障害位置定位法を用いて,プログラムのバグ部分を特定し,これらのバグ文を欠いたプログラムスケッチをLLMに提示する。
論文 参考訳(メタデータ) (2024-12-19T12:08:44Z) - ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
LLMはコード生成時にエラーの蓄積に影響を受けやすい。
コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文 参考訳(メタデータ) (2024-11-11T16:39:13Z) - LecPrompt: A Prompt-based Approach for Logical Error Correction with CodeBERT [28.711745671275477]
LecPromptは論理的エラーをローカライズし、修復するためのプロンプトベースのアプローチである。
CodeBERTは、コードに基づいてトレーニングされたトランスフォーマーベースの大規模言語モデルである。
Pythonでは、LecPromptが注目すべき74.58%のトップ-1トークンレベルの修復精度を達成した。
Javaでは、LecPromptは69.23%のトップ-1トークンレベルの修復精度を提供する。
論文 参考訳(メタデータ) (2024-10-10T01:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。