Fugu-MT 論文翻訳(概要): On the Feasibility of Deduplicating Compiler Bugs with Bisection

論文の概要: On the Feasibility of Deduplicating Compiler Bugs with Bisection

arxiv url: http://arxiv.org/abs/2506.23281v1
Date: Sun, 29 Jun 2025 15:12:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.804634
Title: On the Feasibility of Deduplicating Compiler Bugs with Bisection
Title（参考訳）: バイセクション付きコンパイラバグの重複性について
Authors: Xintong Zhou, Zhenyang Xu, Chengnian Sun,
Abstract要約: バグ重複(Bug deduplication)は、バグ重複として知られる実用的な研究問題である。コンパイラのバグ重複の以前の方法は主に、重複識別のためのバグ関連機能を抽出するプログラム分析に依存していた。 BugLensは、主に二分法を用いる新しい重複解法であり、偽陰性を最小化するためにバグトリガ最適化の同定によって強化される。
参考スコア（独自算出の注目度）: 1.286741686995463
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Random testing has proven to be an effective technique for compiler validation. However, the debugging of bugs identified through random testing presents a significant challenge due to the frequent occurrence of duplicate test programs that expose identical compiler bugs. The process to identify duplicates is a practical research problem known as bug deduplication. Prior methodologies for compiler bug deduplication primarily rely on program analysis to extract bug-related features for duplicate identification, which can result in substantial computational overhead and limited generalizability. This paper investigates the feasibility of employing bisection, a standard debugging procedure largely overlooked in prior research on compiler bug deduplication, for this purpose. Our study demonstrates that the utilization of bisection to locate failure-inducing commits provides a valuable criterion for deduplication, albeit one that requires supplementary techniques for more accurate identification. Building on these results, we introduce BugLens, a novel deduplication method that primarily uses bisection, enhanced by the identification of bug-triggering optimizations to minimize false negatives. Empirical evaluations conducted on four real-world datasets demonstrate that BugLens significantly outperforms the state-of-the-art analysis-based methodologies Tamer and D3 by saving an average of 26.98% and 9.64% human effort to identify the same number of distinct bugs. Given the inherent simplicity and generalizability of bisection, it presents a highly practical solution for compiler bug deduplication in real-world applications.
Abstract（参考訳）: ランダムテストは、コンパイラの検証に有効なテクニックであることが証明されている。しかし、ランダムなテストによって特定されたバグのデバッグは、同じコンパイラのバグを暴露する重複テストプログラムが頻繁に発生するため、重大な課題となる。重複を識別するプロセスは、バグ重複として知られる実用的な研究問題である。コンパイラのバグ重複の以前の手法は、主にプログラム解析に頼り、重複識別のためのバグ関連の特徴を抽出し、かなりの計算オーバーヘッドと限定的な一般化性をもたらす可能性がある。本稿では,コンパイラのバグ重複に関する先行研究で概ね見過ごされた標準的なデバッグ手順であるバイセクションの導入の可能性について検討する。本研究は, より正確な識別のために補足的手法を必要とするが, 障害誘発コミットの発見にバイオセクションを活用することが, 重複解消に有用な基準となることを実証する。これらの結果に基づいて,主に二分法を用いる新しい重複解法であるBugLensを導入し,偽陰性を最小化するためのバグトリガ最適化の同定により強化した。 4つの実世界のデータセットで実施された実証的な評価によると、BugLensは26.98%と9.64%の人的労力を節約し、最先端の分析ベースの方法論であるTamerとD3を著しく上回っている。分岐の単純さと一般化性を考えると、実世界のアプリケーションにおけるコンパイラーバグの重複に対する非常に実践的な解決策である。

関連論文リスト

GPTrace: Effective Crash Deduplication Using LLM Embeddings [0.8166364251367626]
クラッシュ重複(Crash Deduplication)とは、重複するインプットを検出して、検査が必要なデータを減らすタスクである。 GPTraceは,大規模な言語モデルを利用して,クラッシュに伴う各種データソースの類似性を評価するデ重複ワークフローである。 14のターゲットから50の真実ラベルに属する30万以上のクラッシュインプットに対して,我々のアプローチを評価した。
論文参考訳（メタデータ） (2025-12-01T12:30:30Z)
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
Black-Box Bug-Amplification for Multithreaded Software [5.267860909499323]
バグ、特に並列システムのバグは、稀な条件下でのみ現れるため、しばしば再生が困難である。本稿では,このような突発的なバグの発生を体系的に増幅する手法を提案する。このアプローチを,多様なカテゴリにまたがる17の代表的なバグのデータセットで評価する。
論文参考訳（メタデータ） (2025-07-28T20:20:04Z)
Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Beyond the Edge of Function: Unraveling the Patterns of Type Recovery in Binary Code [55.493408628371235]
本稿では,バイナリコードの変数型を復元するフレームワークByteTRを提案する。 ByteTRは、関数間の変数伝搬の普遍性を考慮して、変数伝搬をトレースするためのプロシーダ間解析を行い、ゲートグラフニューラルネットワークを用いて、変数型回復のための長距離データフロー依存性をキャプチャする。
論文参考訳（メタデータ） (2025-03-10T12:27:05Z)
Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文参考訳（メタデータ） (2024-11-20T04:21:07Z)
Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Automatic Build Repair for Test Cases using Incompatible Java Versions [7.4881561767138365]
依存性の最小化を行うことで、Javaプロジェクトのテストケースを修復するアプローチを導入します。既存の最先端技術とは異なり、我々の手法はソースレベルで動作し、コンパイル時のエラーを修正できる。
論文参考訳（メタデータ） (2024-04-27T07:55:52Z)
Evolutionary Generative Fuzzing for Differential Testing of the Kotlin Compiler [14.259471945857431]
JetBrainsが開発したKotlinコンパイラのバグ発見における差分テストの有効性について検討する。そこで我々は,K1コンパイラとK2コンパイラの入力プログラムを生成するブラックボックス生成手法を提案する。ケーススタディでは,提案手法がK1とK2のバグを効果的に検出している。
論文参考訳（メタデータ） (2024-01-12T16:01:12Z)
Understanding and Mitigating Classification Errors Through Interpretable Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。提案手法であるPremiseが実際によく動作することを示す。
論文参考訳（メタデータ） (2023-11-18T00:24:26Z)
Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文参考訳（メタデータ） (2022-05-25T15:26:48Z)
On Distribution Shift in Learning-based Bug Detectors [4.511923587827301]
まず、モデルをバグ検出領域に適応させるため、次に実際のバグ検出領域に適応させるために、モデルを実際の配布に向けて駆動するために、バグ検出装置を2つのフェーズで訓練する。我々は,本手法を広範に研究した3種類のバグタイプに対して評価し,実際のバグ分布を捉えるために慎重に設計された新しいデータセットを構築した。
論文参考訳（メタデータ） (2022-04-21T12:17:22Z)
Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文参考訳（メタデータ） (2020-06-22T21:12:31Z)
Provable Training Set Debugging for Linear Regression [17.138864028618276]
まず、バグ点を特定するための一般的な統計アルゴリズムを定式化し、厳密な理論的保証を提供する。次に、我々の一般理論の結果と、クリーンな点とバギーな点に対する推定器の依存性を説明するための2つのケーススタディを示す。
論文参考訳（メタデータ） (2020-06-16T09:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。