Fugu-MT 論文翻訳(概要): Automatic Test-Case Reduction in Proof Assistants: A Case Study in Coq

論文の概要: Automatic Test-Case Reduction in Proof Assistants: A Case Study in Coq

arxiv url: http://arxiv.org/abs/2202.13823v2
Date: Mon, 10 Mar 2025 18:58:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 22:35:51.074755
Title: Automatic Test-Case Reduction in Proof Assistants: A Case Study in Coq
Title（参考訳）: 証明アシスタントにおける自動テストケースの削減:Coqを事例として
Authors: Jason Gross, Théo Zimmermann, Rajashree Agrawal, Adam Chlipala,
Abstract要約: 我々は、最小限のファイルとスタンドアロンのファイルでバグの振る舞いを再現するツールであるCoq Bug Minimizerを紹介する。私たちのツールは、CoqのリバースCI障害を自動的にトリガーするために、Coqbotと統合されています。
参考スコア（独自算出の注目度）: 3.355947151753714
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the adoption of proof assistants increases, there is a need for efficiency in identifying, documenting, and fixing compatibility issues that arise from proof assistant evolution. We present the Coq Bug Minimizer, a tool for reproducing buggy behavior with minimal and standalone files, integrated with coqbot to trigger automatically on Coq reverse CI failures. Our tool eliminates the overhead of having to download, set up, compile, and then explore and understand large developments: enabling Coq developers to easily obtain modular test-case files for fast experimentation. In this paper, we describe insights about how test-case reduction is different in Coq than in traditional compilers. We expect that our insights will generalize to other proof assistants. We evaluate the Coq Bug Minimizer on over 150 CI failures. Our tool succeeds in reducing failures to smaller test cases in roughly 75% of the time. The minimizer produces a fully standalone test case 89% of the time, and it is on average about one-third the size of the original test. The average reduced test case compiles in 1.25 seconds, with 75% taking under half a second.
Abstract（参考訳）: 証明アシスタントの採用が進むにつれて、証明アシスタントの進化から生じる互換性の問題を特定し、文書化し、修正する効率性が必要である。 Coq Bug Minimizerは、最小限のスタンドアロンファイルでバグの振る舞いを再現するツールで、Coqbotと統合して、Coqの逆CI障害を自動的にトリガする。私たちのツールは、ダウンロード、セットアップ、コンパイル、そして大規模な開発を探索し、理解する必要のあるオーバーヘッドを取り除く。本稿では,従来のコンパイラとCoqではテストケース削減の違いについて考察する。私たちは私たちの洞察が他の証明アシスタントに一般化されることを期待しています。我々は150以上のCI障害に対するCoq Bug Minimizerの評価を行った。私たちのツールは、およそ75%の時間で、失敗を小さなテストケースに還元することに成功しています。最小化器は、完全にスタンドアロンのテストケースを89%生成し、最初のテストの3分の1ほどの大きさである。平均縮小テストケースは1.25秒でコンパイルされ、75%は半秒以下である。

関連論文リスト

Issue2Test: Generating Reproducing Test Cases from Issue Reports [21.28421180698285]
問題を解決するための重要なステップは、問題を正確に再現するテストケースを作成することです。本稿では,所与の課題報告に対する再生テストケースを自動生成するLLMベースの手法である Issue2Test を提案する。 SWT-bench-lite データセット上での Issue2Test の評価を行い,30.4 の問題を再現した。
論文参考訳（メタデータ） (2025-03-20T16:44:00Z)
Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文参考訳（メタデータ） (2025-03-07T08:41:53Z)
s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文参考訳（メタデータ） (2025-01-31T18:48:08Z)
CoqPilot, a plugin for LLM-based generation of proofs [0.0]
CoqPilotは、Coq証明の記述を自動化するために設計されたVS Codeエクステンションである。プラグインは、Coqファイルの許容戦術でマークされた証明の一部を収集する。 LLMと非機械学習法を組み合わせて、ホールの証明候補を生成する。
論文参考訳（メタデータ） (2024-10-25T14:57:29Z)
CoqPyt: Proof Navigation in Python in the Era of LLMs [5.029445580644576]
本稿では,Coq証明アシスタントと対話するPythonツールであるCoqPytについて述べる。 CoqPytは、リッチな前提データの抽出など、新しい機能を提供することで、他のCoq関連のツールを改善している。
論文参考訳（メタデータ） (2024-05-07T12:50:28Z)
Taming Timeout Flakiness: An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストは回帰テストに悪影響を及ぼします。テストタイムアウトは、このような不安定なテストの失敗に寄与する要因のひとつです。テストのフレキネス率は、繰り返しテストの実行回数によって49%から70%の範囲である。
論文参考訳（メタデータ） (2024-02-07T20:01:41Z)
Automatic Generation of Test Cases based on Bug Reports: a Feasibility Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文参考訳（メタデータ） (2023-10-10T05:30:12Z)
LTM: Scalable and Black-box Similarity-based Test Suite Minimization based on Language Models [0.6562256987706128]
テストスイートはソフトウェアが進化するにつれて成長する傾向にあり、割り当てられたテスト予算ですべてのテストケースを実行することができないことが多い。テストスイートの最小化(TSM)は、冗長なテストケースを削除することで、ソフトウェアテストの効率を改善するために使用される。 LTM(Language model-based Test suite Minimization)を提案する。
論文参考訳（メタデータ） (2023-04-03T22:16:52Z)
Reducing Variance in Temporal-Difference Value Estimation via Ensemble of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文参考訳（メタデータ） (2022-09-16T01:47:36Z)
AdaTest:Reinforcement Learning and Adaptive Sampling for On-chip Hardware Trojan Detection [25.593824693347113]
AdaTestは、HT(Hardware Trojan)検出のための新しい適応型テストパターン生成フレームワークである。高いトリガーカバレッジを達成するために、AdaTestはReinforcement Learning(RL)を活用して、さまざまなテストインプットを生成する。 AdaTestは、テスト生成のスピードアップを最大2つ、テストセットサイズを前回よりも2つまで削減する。
論文参考訳（メタデータ） (2022-04-12T23:56:59Z)
Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文参考訳（メタデータ） (2020-10-22T12:45:55Z)
PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文参考訳（メタデータ） (2020-10-06T15:47:53Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。