論文の概要: Variability-Aware Detection and Repair of Compilation Errors Using Foundation Models in Configurable Systems
- arxiv url: http://arxiv.org/abs/2601.16755v1
- Date: Fri, 23 Jan 2026 13:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.706578
- Title: Variability-Aware Detection and Repair of Compilation Errors Using Foundation Models in Configurable Systems
- Title(参考訳): 構成可能なシステムにおける基礎モデルを用いたコンパイルエラーの検出と修正
- Authors: Rohit Gheyi, Lucas Albuquerque, Márcio Ribeiro, Eduardo Almeida, Danyllo Albuquerque, Mirko Perkusich,
- Abstract要約: 基礎モデルは,変数によるコンパイルエラーを効果的に識別できることを示す。
コンパイルエラーの修正のため、GPT-OSS-20Bはコンパイル可能な修正を70%以上で生成した。
本研究は,現状の基盤モデルが,従来の変数認識分析を実践的かつ低効率に補完するものであることを示唆する。
- 参考スコア(独自算出の注目度): 1.2560438996036287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern software systems often rely on conditional compilation to support optional features and multiple deployment scenarios. In configurable systems, compilation errors may arise only under specific combinations of features, remaining hidden during development and testing. Such variability-induced errors are difficult to detect in practice, as traditional compilers analyze only a single configuration at a time, while existing variability-aware tools typically require complex setup and incur high analysis costs. In this article, we present an empirical study on the use of foundation models to detect and fix compilation errors caused by feature variability in configurable C systems. We evaluate GPT-OSS-20B and GEMINI 3 PRO, and compare them with TYPECHEF, a state-of-the-art variability-aware parser. Our evaluation considers two complementary settings: 5,000 small configurable systems designed to systematically exercise variability-induced compilation behavior, comprising both systems with and without compilation errors, and 14 real-world GitHub commits, as well as an additional set of mutation testing scenarios (42). Our results show that foundation models can effectively identify variability-induced compilation errors. On small configurable systems, GPT-OSS-20B achieved a precision of 0.97, recall of 0.90, and accuracy of 0.94, substantially increasing detection coverage compared to TYPECHEF, and exhibiting performance comparable to GEMINI 3. For compilation error repair, GPT-OSS-20B produced compilable fixes in over 70% of the cases. In the analysis of real commits, CHATGPT-5.2 detected all injected faults except for two cases and identified a potential real compilation bug in a Linux commit with more than 1,000 modified lines. Our findings indicate that current state-of-the-art foundation models provide a practical and low-effort complement to traditional variability-aware analyses.
- Abstract(参考訳): 現代のソフトウェアシステムは、オプション機能と複数のデプロイメントシナリオをサポートするために条件コンパイルに依存することが多い。
構成可能なシステムでは、コンパイルエラーは特定の機能の組み合わせの下でのみ発生し、開発とテストの間に隠される。
従来のコンパイラは一度に1つの設定しか分析しないが、既存の可変性対応ツールは一般的に複雑なセットアップと高い分析コストを必要とする。
本稿では,構成可能なCシステムにおいて,特徴変数に起因するコンパイルエラーを検出し,修正するための基礎モデルの利用に関する実証的研究を行う。
我々は, GPT-OSS-20B と GEMINI 3 PRO を評価し, 最先端の可変型パーサである TypechEF と比較した。
5,000の小さな構成可能なシステムは,コンパイルエラーと非コンパイルエラーの両システムと,14の実世界のGitHubコミットと,追加の突然変異テストシナリオ(42。
この結果から,基礎モデルにより,変数によるコンパイルエラーを効果的に識別できることが示唆された。
小さな構成可能なシステムでは、GPT-OSS-20Bは0.97の精度、0.90のリコール、0.94の精度を達成した。
コンパイルエラーの修正のため、GPT-OSS-20Bはコンパイル可能な修正を70%以上で生成した。
実際のコミットの分析において、CHATGPT-5.2は2つのケースを除いて全てのインジェクトされた障害を検出し、1000以上の修正されたラインを持つLinuxコミットの本当のコンパイルバグを発見した。
本研究は,現状の基盤モデルが,従来の変数認識分析を実践的かつ低効率に補完するものであることを示唆する。
関連論文リスト
- Isolating Compiler Faults via Multiple Pairs of Adversarial Compilation Configurations [13.835199384689645]
MultiConfは、複数の対の逆コンパイル構成を構築することで、コンパイラの障害を自動的に分離する新しいアプローチである。
実世界のGCCコンパイラ60のバグのベンチマークでMultiConfを評価した。
特に、MultiConfはTop-1ファイルレベルで60のバグのうち27をローカライズし、2つの最先端アプローチよりも35.0%と28.6%改善した。
論文 参考訳(メタデータ) (2025-12-27T09:40:35Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - Improving Compiler Bug Isolation by Leveraging Large Language Models [14.679589768900621]
本稿では,AutoCBIという新しいコンパイラバグ分離手法を提案する。
我々は、広く使われているGCCおよびLLVMコンパイラの120の現実世界バグに対して、最先端のアプローチ(DiWi、RecBi、FuseFL)に対してAutoCBIを評価した。
特に、GCC/LLVMの上位1位では、AutoCBIは66.67%/69.23%、300%/340%、100%/57.14%のバグをRecBi、DiWi、FuseFLより分離している。
論文 参考訳(メタデータ) (2025-06-21T09:09:30Z) - Fine-Grained 1-Day Vulnerability Detection in Binaries via Patch Code Localization [12.73365645156957]
バイナリの1日間の脆弱性は、ソフトウェアセキュリティに対する大きな脅威になっている。
パッチの有無テストは 脆弱性を検出する効果的な方法の1つです
パッチコードとそのコンテキストから安定な値を利用するPLocatorという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-29T04:35:37Z) - Evaluating the Capability of LLMs in Identifying Compilation Errors in Configurable Systems [1.2928804566606342]
本研究では,大規模言語モデル(LLM),特にChatGPT4,Le Chat Mistral,Gemini Advanced 1.5の有効性を評価する。
ChatGPT4は、個々の製品でほとんどのコンパイルエラーを特定することに成功した。
Le Chat MistralとGemini Advanced 1.5はそれらのいくつかを発見した。
論文 参考訳(メタデータ) (2024-07-26T21:07:21Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。