論文の概要: SAGE:Specification-Aware Grammar Extraction for Automated Test Case Generation with LLMs
- arxiv url: http://arxiv.org/abs/2506.11081v1
- Date: Wed, 04 Jun 2025 08:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.559673
- Title: SAGE:Specification-Aware Grammar Extraction for Automated Test Case Generation with LLMs
- Title(参考訳): SAGE: LLMを用いた自動テストケース生成のための特定性を考慮した文法抽出
- Authors: Aditi, Hyunwoo Park, Sicheol Sung, Yo-Sub Han, Sang-Ki Ko,
- Abstract要約: 我々は,オープンソースの大規模言語モデル(LLM)を用いて,CCFG(Context-free Grammars with Counters)を誘導する方法について検討する。
CCFGは、導出中のカウンタ値の保存と再利用によって論理的制約を持つ仕様を表す。
提案手法は, 文法品質とテスト効率の両面において, より高度な一般化を実現し, オープンかつクローズドソースの LLM を17 に上回っている。
- 参考スコア(独自算出の注目度): 8.576669309128382
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Grammar-based test case generation has proven effective for competitive programming problems, but generating valid and general grammars from natural language specifications remains a key challenge, especially under limited supervision. Context-Free Grammars with Counters (CCFGs) have recently been introduced as a formalism to represent such specifications with logical constraints by storing and reusing counter values during derivation. In this work, we explore the use of open-source large language models (LLMs) to induce CCFGs from specifications using a small number of labeled examples and verifiable reward-guided reinforcement learning. Our approach first fine-tunes an open-source LLM to perform specification-to-grammar translation, and further applies Group Relative Policy Optimization (GRPO) to enhance grammar validity and generality. We also examine the effectiveness of iterative feedback for open and closed-source LLMs in correcting syntactic and semantic errors in generated grammars. Experimental results show that our approach SAGE achieves stronger generalization and outperforms 17 open and closed-source LLMs in both grammar quality and test effectiveness, improving over the state-of-the-art by 15.92%p in grammar validity and 12.34%p in test effectiveness. We provide our implementation and dataset at the following anonymous repository:https://anonymous.4open.science/r/SAGE-5714
- Abstract(参考訳): 文法ベースのテストケース生成は、競合するプログラミング問題に対して有効であることが証明されているが、自然言語仕様から有効で一般的な文法を生成することは、特に限定的な監督の下で重要な課題である。
CCFG (Context-Free Grammars with Counters) は、微分中にカウンター値の保存と再利用によって論理的制約でそのような仕様を表現する形式として最近導入された。
本研究では,オープンソースの大規模言語モデル(LLM)を用いて,少数のラベル付き例と検証可能な報酬誘導強化学習を用いて,仕様書からCCFGを誘導する方法について検討する。
提案手法はまず,オープンソース LLM を用いて仕様から文法への翻訳を行い,さらにグループ相対ポリシー最適化 (GRPO) を用いて文法の妥当性と一般性を向上させる。
また,生成文法における構文的・意味的誤りの訂正における,オープンおよびクローズドソースLLMに対する反復的フィードバックの有効性についても検討した。
実験結果から,SAGEは文法品質と試験効率の両方で17個のオープンソースLLMより優れ,文法の妥当性は15.92%,試験効率は12.34%向上した。
私たちは以下の匿名リポジトリで実装とデータセットを提供しています。
関連論文リスト
- Training Large Recommendation Models via Graph-Language Token Alignment [53.3142545812349]
本稿では,グラフ言語トークンアライメントによる大規模推薦モデルのトレーニングを行う新しいフレームワークを提案する。
インタラクショングラフからアイテムとユーザノードを事前訓練されたLLMトークンにアライメントすることで、GLTAはLLMの推論能力を効果的に活用する。
さらに、エンドツーエンドのアイテム予測のためのトークンアライメントを最適化するために、GLLM(Graph-Language Logits Matching)を導入する。
論文 参考訳(メタデータ) (2025-02-26T02:19:10Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Grammar-Aligned Decoding [30.972850034752884]
LLM(Large Language Models)は、プログラムコード、数学的公式、整形されたマークアップなどの高度に構造化された出力を確実に生成するのに苦労する。
制約付き復号法は、LLMが出力できるトークンを各ステップで厳格に制限し、出力が与えられた制約と一致することを保証することによってこの問題を軽減する。
本稿では,GCD技術がLLMの分布を歪め,文法的だがLLMに比例しない確率で現れる出力を導出することを示す。
論文 参考訳(メタデータ) (2024-05-31T17:39:15Z) - Ungrammatical-syntax-based In-context Example Selection for Grammatical Error Correction [8.655807096424732]
本稿では,文法的誤り訂正のための非文法的シンタクスに基づく文内例選択手法を提案する。
具体的には,多種多様なアルゴリズムを用いた構文構造に基づいて文の類似度を測定し,テスト入力に最もよく似た不規則な構文を共有する最適なICL例を同定する。
論文 参考訳(メタデータ) (2024-03-28T10:05:57Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Prompting open-source and commercial language models for grammatical error correction of English learner text [18.496628725996406]
大規模言語モデル(LLM)は、流動的で文法的なテキストを生成するよう促すことができる。
確立したベンチマークデータセット上で, 文法的誤り訂正(GEC)におけるLLMの性能評価を行った。
いくつかのオープンソースモデルは、最小限の編集ベンチマークで商用モデルよりも優れており、いくつかの設定ではゼロショットプロンプトは、少数ショットプロンプトと同じくらい競争力がある。
論文 参考訳(メタデータ) (2024-01-15T14:19:47Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - GrammarGPT: Exploring Open-Source LLMs for Native Chinese Grammatical
Error Correction with Supervised Fine-Tuning [46.75740002185691]
オープンソースのLarge Language ModelであるGrammarGPTを導入し、中国語の文法的誤り訂正の可能性を探る。
手がかり付き文法的誤りに対しては,ChatGPTを案内して非文法的文を生成する手法を提案する。
手がかりのない文法的誤りに対しては,公開ウェブサイトから非文法的文章を収集し,手作業で修正した。
論文 参考訳(メタデータ) (2023-07-26T02:45:38Z) - Grammar-Constrained Decoding for Structured NLP Tasks without Finetuning [27.59524153097858]
文法制約付き復号法(GCD)は、大言語モデル(LM)の生成を制御するために用いられる。
GCDは一般に構造化NLPタスクの統一フレームワークとして機能する。
文法制約付きLMは、制約なしLMよりも大幅に優れるか、タスク固有の微調整モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T11:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。