論文の概要: LogiCase: Effective Test Case Generation from Logical Description in Competitive Programming
- arxiv url: http://arxiv.org/abs/2505.15039v1
- Date: Wed, 21 May 2025 02:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.825406
- Title: LogiCase: Effective Test Case Generation from Logical Description in Competitive Programming
- Title(参考訳): LogiCase: 競合プログラミングにおける論理記述からの効果的なテストケース生成
- Authors: Sicheol Sung, Aditi, Dogyu kim, Yo-Sub Han, Sang-Ki Ko,
- Abstract要約: CCFG(Context-Free Grammars with Counters)は、入力仕様における構文構造と意味構造の両方をキャプチャする形式である。
微調整のCodeT5モデルを用いて、自然言語入力仕様をCFGに変換し、高品質なテストケースを体系的に生成する。
- 参考スコア(独自算出の注目度): 7.726159311658054
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated Test Case Generation (ATCG) is crucial for evaluating software reliability, particularly in competitive programming where robust algorithm assessments depend on diverse and accurate test cases. However, existing ATCG methods often fail to meet complex specifications or generate effective corner cases, limiting their utility. In this work, we introduce Context-Free Grammars with Counters (CCFGs), a formalism that captures both syntactic and semantic structures in input specifications. Using a fine-tuned CodeT5 model, we translate natural language input specifications into CCFGs, enabling the systematic generation of high-quality test cases. Experiments on the CodeContests dataset demonstrate that CCFG-based test cases outperform baseline methods in identifying incorrect algorithms, achieving significant gains in validity and effectiveness. Our approach provides a scalable and reliable grammar-driven framework for enhancing automated competitive programming evaluations.
- Abstract(参考訳): 自動テストケース生成(ATCG)は、ソフトウェア信頼性の評価に不可欠である。
しかし、既存のATCGメソッドは複雑な仕様を満たしたり、効果的なコーナーケースを生成したりすることができず、実用性は制限される。
本研究では、入力仕様における構文構造と意味構造の両方をキャプチャする形式主義であるContext-Free Grammars with Counters (CCFGs)を紹介する。
微調整のCodeT5モデルを用いて、自然言語入力仕様をCFGに変換し、高品質なテストケースを体系的に生成する。
CodeContestsデータセットの実験では、CCFGベースのテストケースは、不正アルゴリズムを識別するベースラインメソッドよりも優れており、妥当性と有効性において大きな向上が達成されている。
我々のアプローチは、自動競合プログラミング評価を向上するためのスケーラブルで信頼性の高い文法駆動フレームワークを提供する。
関連論文リスト
- EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。
2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。
19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - TestBench: Evaluating Class-Level Test Case Generation Capability of Large Language Models [8.22619177301814]
クラスレベルのLLMベースのテストケース生成のためのベンチマークであるTestBenchを紹介する。
GitHub上の9つの実世界の大規模プロジェクトから108のJavaプログラムのデータセットを構築します。
本稿では,構文的正当性,コンパイル的正当性,テスト的正当性,コードカバレッジ率,欠陥検出率という,テストケースの5つの側面を考慮した詳細な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-26T06:18:06Z) - Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting [6.938766764201549]
本稿では,大規模言語モデルと統計的手法の力を活用したテストケースの自動開発手法を提案する。
4つの異なる分類アルゴリズムを用いて行動テストプロファイルを分析し、それらのモデルの限界と強みについて議論する。
論文 参考訳(メタデータ) (2024-07-31T21:12:21Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Fuzzy Inference System for Test Case Prioritization in Software Testing [0.0]
テストケース優先順位付け(TCP)は、テスト効率を高めるための重要な戦略である。
本稿では,新しいファジィ論理に基づくTCP自動化手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T08:08:54Z) - Automated Test Case Repair Using Language Models [0.5708902722746041]
欠陥のないテストケースは、テストスイートの品質を低下させ、ソフトウェア開発プロセスを破壊します。
テストケースの自動修復に事前訓練されたコード言語モデルを活用する新しいアプローチであるTaRGETを提案する。
TaRGETは、テスト修復を言語翻訳タスクとして扱い、言語モデルを微調整するために2段階のプロセスを使用する。
論文 参考訳(メタデータ) (2024-01-12T18:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。