Fugu-MT 論文翻訳(概要): Validity-Preserving Delta Debugging via Generator Trace Reduction

論文の概要: Validity-Preserving Delta Debugging via Generator Trace Reduction

arxiv url: http://arxiv.org/abs/2402.04623v3
Date: Wed, 04 Dec 2024 15:09:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.205781
Title: Validity-Preserving Delta Debugging via Generator Trace Reduction
Title（参考訳）: 発電機トレーサリダによるデルタデバッギングの妥当性
Authors: Luyao Ren, Xing Zhang, Ziyue Hua, Yanyan Jiang, Xiao He, Yingfei Xiong, Tao Xie,
Abstract要約: GReduceは、削減された有効なテスト入力を出力するジェネレータ上の他の実行を検索する。 GReduceはPersesやT-PDDなど最先端の構文ベースのリデューサを大幅に上回っている。
参考スコア（独自算出の注目度）: 14.24086822861706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reducing test inputs that trigger bugs is crucial for efficient debugging. Delta debugging is the most popular approach for this purpose. When test inputs need to conform to certain specifications, existing delta debugging practice encounters a validity problem: it blindly applies reduction rules, producing a large number of invalid test inputs that do not satisfy the required specifications. This overall diminishing effectiveness and efficiency becomes even more pronounced when the specifications extend beyond syntactical structures. Our key insight is that we should leverage input generators, which are aware of these specifications, to generate valid reduced inputs, rather than straightforwardly performing reduction on test inputs. In this paper, we propose a generator-based delta debugging method, namely GReduce, which derives validity-preserving reducers. Specifically, given a generator and its execution, demonstrating how the bug-inducing test input is generated, GReduce searches for other executions on the generator that yield reduced, valid test inputs. The evaluation results on five benchmarks (i.e., graphs, DL models, JavaScript programs, SymPy, and algebraic data types) show that GReduce substantially outperforms state-of-the-art syntax-based reducers including Perses and T-PDD, and also outperforms QuickCheck, SmartCheck, as well as the state-of-the-art choice-sequence-based reducer Hypothesis, demonstrating the effectiveness, efficiency, and versatility of GReduce.
Abstract（参考訳）: 効率的なデバッグには、バグを引き起こすテストインプットの削減が不可欠だ。デルタデバッギングはこの目的のために最も一般的なアプローチである。テスト入力が特定の仕様に従う必要がある場合、既存のデルタデバッギングプラクティスは有効な問題に直面します。この全体的な効果と効率の低下は、仕様が構文構造を超えて拡張されるとさらに顕著になる。私たちのキーとなる洞察は、これらの仕様を認識した入力ジェネレータを活用して、テストインプットのリダクションを直接実行するのではなく、有効なリダクションインプットを生成することです。本稿では,ジェネレータを用いたデルタデバッギング手法であるGReduceを提案する。具体的には、ジェネレータとその実行が、バグ誘発テストインプットの生成方法を示すものであることを条件として、GReduceは、削減された有効なテストインプットを出力するジェネレータ上の他の実行を検索する。 5つのベンチマーク(グラフ、DLモデル、JavaScriptプログラム、SymPy、代数データ型)の評価結果は、GReduceがPersesやT-PDDといった最先端の構文ベースのリデューサを著しく上回り、QuickCheck、SmartCheck、そして最先端の選択系列ベースのリデューサ仮説を上回り、GReduceの有効性、効率、汎用性を実証していることを示している。

関連論文リスト

MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning [19.054149750597933]
MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) は、"スケーリング・バイ・ユーティリティ(scaling-by-utility)"に重点を移すフレームワークである。我々は,機能的に等価なアサーションを抑えながら,新たな欠陥を発見するモデルにインセンティブを与える,動的ペナルティと組み合わされた新たなインクリメンタル突然変異報酬を導入する。 HumanEval+とMBPP+の実験は、MIST-RLが最先端のベースラインより優れていることを示した。
論文参考訳（メタデータ） (2026-03-02T03:22:44Z)
AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文参考訳（メタデータ） (2026-02-10T06:58:26Z)
Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文参考訳（メタデータ） (2026-02-04T06:30:40Z)
CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文参考訳（メタデータ） (2026-01-30T10:33:29Z)
FreeGAD: A Training-Free yet Effective Approach for Graph Anomaly Detection [54.576802512108685]
Graph Anomaly Detection (GAD)は、グラフ内の多数から逸脱するノードを特定することを目的としている。既存のアプローチは、複雑でリソース集約的なトレーニングプロセスのために、高デプロイメントコストとスケーラビリティの不足に悩まされることが多い。新たなGAD法であるFreeGADを提案する。
論文参考訳（メタデータ） (2025-08-14T12:37:20Z)
Directed Grammar-Based Test Generation [2.0948216657769616]
この研究は自動テスト生成アプローチ(FdLoopと呼ばれる)を提案する。 FdLoopは、既存の入力から関連する入力特性を反復的に学習し、ゴール固有の入力を生成する。 FdLoopは3つのよく知られた入力形式(JSON、CSS、JavaScript)と20のオープンソースソフトウェアを用いて評価する。
論文参考訳（メタデータ） (2025-08-02T19:43:15Z)
Generating Highly Structured Test Inputs Leveraging Constraint-Guided Graph Refinement [4.121384394709256]
本研究では,グラフベース表現を用いて,構造化ドメインに対するテスト入力を統一できるかどうかを検討する。我々は,8つのAIシステムにおける入力妥当性とセマンティックな保存性を高めるために,このアプローチの有効性を評価する。
論文参考訳（メタデータ） (2025-07-28T18:54:04Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
Synthesizing Performance Constraints for Evaluating and Improving Code Efficiency [4.292737608159482]
We present WEDGE, a framework for performance-stressing input given the program under test。 WEDGEは、プログラムの実行空間をパフォーマンス固有の領域に分割するために、分岐条件の形で明示的なパフォーマンス特性制約を合成する。評価の結果、WEDGEは、CodeContestsのテストや既存のアプローチによって最適化されていると主張されたテストと比較して、大幅にスローダウンしていることがわかった。
論文参考訳（メタデータ） (2025-05-29T14:26:22Z)
XMutant: XAI-based Fuzzing for Deep Learning Systems [6.878645239814823]
XMutantは、説明可能な人工知能(XAI)技術を利用して、挑戦的なテスト入力を生成するテクニックである。実験の結果,XMutantは入力の最も影響の大きい部分に着目し,より効率的かつ効率的なテスト生成を可能にすることがわかった。
論文参考訳（メタデータ） (2025-03-10T12:05:49Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Automated Proof Generation for Rust Code via Self-Evolution [69.25795662658356]
私たちは、Rustコードの自動証明生成を可能にする、人間による証明の欠如を克服する新しいフレームワークであるSAFEを紹介します。 GPT-4oに比べて効率と精度が優れていた。この進歩により性能が大幅に向上し、人間の専門家によるベンチマークで70.50%の精度が達成された。
論文参考訳（メタデータ） (2024-10-21T08:15:45Z)
Enriching Automatic Test Case Generation by Extracting Relevant Test Inputs from Bug Reports [8.85274953789614]
nameは、自動テスト生成ツールに入力される入力値を特定するためのバグレポートを探索するテクニックである。 Defects4Jプロジェクトでは,正規表現を用いた場合,68.68%の関連入力が抽出された。
論文参考訳（メタデータ） (2023-12-22T18:19:33Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
FRGNN: Mitigating the Impact of Distribution Shift on Graph Neural Networks via Test-Time Feature Reconstruction [13.21683198528012]
分散シフトはグラフニューラルネットワーク(GNN)のテスト性能に悪影響を及ぼす可能性がある特徴再構成を行うための汎用フレームワークFR-GNNを提案する。特に、再構成されたノード機能は、よく訓練されたモデルをテストするために直接利用することができる。
論文参考訳（メタデータ） (2023-08-18T02:34:37Z)
Applying and Extending the Delta Debugging Algorithm for Elevator Dispatching Algorithms (Experience Paper) [7.289672463326423]
エレベータディスパッチアルゴリズムでは、ソフトウェア開発者に最小限のテスト入力を提供するのが利点である。本稿では,まずCPSが動作する環境と物理状態をモニタリングすることにより,この手法を強化する。 2番目のステップでは、このような安定した状態を用いて、デルタデバッグアルゴリズムがより効率的に障害発生テストインプットを分離するのを助ける。
論文参考訳（メタデータ） (2023-05-28T19:27:24Z)
Align-DETR: Improving DETR with Simple IoU-aware BCE loss [32.13866392998818]
そこで本稿では, 誤り訂正問題を定量的に評価するために, ベストレグレッションされたサンプルをリコールする計量法を提案する。提案した損失であるIA-BCEは、DeTRのトレーニングをガイドし、分類スコアとローカライゼーション精度の強い相関関係を構築する。クエリのスパーシリティによって引き起こされるサンプル品質の劇的な低下を克服するために,プライマリサンプル重み付け機構を導入する。
論文参考訳（メタデータ） (2023-04-15T10:24:51Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
A Fair Loss Function for Network Pruning [70.35230425589592]
本稿では, 刈り込み時のバイアスの抑制に使用できる簡易な改良型クロスエントロピー損失関数である, 性能重み付き損失関数を提案する。 CelebA、Fitzpatrick17k、CIFAR-10データセットを用いた実験は、提案手法が単純で効果的なツールであることを実証している。
論文参考訳（メタデータ） (2022-11-18T15:17:28Z)
TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文参考訳（メタデータ） (2022-05-18T05:43:06Z)
Latency Adjustable Transformer Encoder for Language Understanding [0.8287206589886879]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。
論文参考訳（メタデータ） (2022-01-10T13:04:39Z)
Print Error Detection using Convolutional Neural Networks [0.0]
印刷誤りサンプルを人工的に生成する方法を提案する。最終訓練されたネットワークは99.83%の精度でテストが完了しました。
論文参考訳（メタデータ） (2021-04-11T16:30:17Z)
Distribution-Aware Testing of Neural Networks Using Generative Models [5.618419134365903]
ディープニューラルネットワーク(DNN)をコンポーネントとして持つソフトウェアの信頼性は、緊急に重要である。最近の3つのテスト手法が, かなりの数の不正なテスト入力を生成することを示す。テスト生成プロセスにおいて,テスト中のDNNモデルの有効な入力空間を組み込む手法を提案する。
論文参考訳（メタデータ） (2021-02-26T17:18:21Z)
PC-GAIN: Pseudo-label Conditional Generative Adversarial Imputation Networks for Incomplete Data [19.952411963344556]
PC-GAIN(PC-GAIN)は、PC-GAIN(PC-GAIN)と呼ばれる新しい教師なしデータ計算法である。まず,低損失率データのサブセットに含まれる潜在的なカテゴリ情報を学習するための事前学習手順を提案する。そして、合成擬似ラベルを用いて補助分類器を決定する。
論文参考訳（メタデータ） (2020-11-16T08:08:26Z)
Sampling-Decomposable Generative Adversarial Recommender [84.05894139540048]
サンプル分解可能な生成逆数レコメンダ(SD-GAR)を提案する。本フレームワークでは, 自己正規化重要度サンプリングにより, 生成元と最適値とのばらつきを補償する。提案アルゴリズムを5つの実世界のレコメンデーションデータセットを用いて広範囲に評価する。
論文参考訳（メタデータ） (2020-11-02T13:19:10Z)
PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文参考訳（メタデータ） (2020-10-06T15:47:53Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。