論文の概要: Improving Compiler Bug Isolation by Leveraging Large Language Models
- arxiv url: http://arxiv.org/abs/2506.17647v1
- Date: Sat, 21 Jun 2025 09:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.527021
- Title: Improving Compiler Bug Isolation by Leveraging Large Language Models
- Title(参考訳): 大規模言語モデルの活用によるコンパイラバグ分離の改善
- Authors: Yixian Qi, Jiajun Jiang, Fengjie Li, Bowen Chen, Hongyu Zhang, Junjie Chen,
- Abstract要約: 本稿では,AutoCBIという新しいコンパイラバグ分離手法を提案する。
我々は、広く使われているGCCおよびLLVMコンパイラの120の現実世界バグに対して、最先端のアプローチ(DiWi、RecBi、FuseFL)に対してAutoCBIを評価した。
特に、GCC/LLVMの上位1位では、AutoCBIは66.67%/69.23%、300%/340%、100%/57.14%のバグをRecBi、DiWi、FuseFLより分離している。
- 参考スコア(独自算出の注目度): 14.679589768900621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compilers play a foundational role in building reliable software systems, and bugs within them can lead to catastrophic consequences. The compilation process typically involves hundreds of files, making traditional automated bug isolation techniques inapplicable due to scalability or effectiveness issues. Current mainstream compiler bug localization techniques have limitations in test program mutation and resource consumption. Inspired by the recent advances of pre-trained Large Language Models (LLMs), we propose an innovative approach named AutoCBI, which (1) uses LLMs to summarize compiler file functions and (2) employs specialized prompts to guide LLM in reordering suspicious file rankings. This approach leverages four types of information: the failing test program, source file function summaries, lists of suspicious files identified through analyzing test coverage, as well as compilation configurations with related output messages, resulting in a refined ranking of suspicious files. Our evaluation of AutoCBI against state-of-the-art approaches (DiWi, RecBi and FuseFL) on 120 real-world bugs from the widely-used GCC and LLVM compilers demonstrates its effectiveness. Specifically, AutoCBI isolates 66.67%/69.23%, 300%/340%, and 100%/57.14% more bugs than RecBi, DiWi, and FuseFL, respectively, in the Top-1 ranked results for GCC/LLVM. Additionally, the ablation study underscores the significance of each component in our approach.
- Abstract(参考訳): コンパイラは信頼性の高いソフトウェアシステムを構築する上で基礎的な役割を果たす。
コンパイルプロセスには数百のファイルが含まれており、スケーラビリティや有効性の問題のために従来の自動バグ分離技術が適用できない。
現在の主流のコンパイラバグローカライズ技術は、テストプログラムの突然変異とリソース消費に制限がある。
近年のLLM(Large Language Models)の進歩に触発されて,(1)LLMをコンパイラファイル関数の要約に用い,(2)不審なファイルランキングの並べ替えにLLMをガイドするための特別なプロンプトを用いる,AutoCBIという革新的なアプローチを提案する。
このアプローチでは、フェールテストプログラム、ソースファイル関数の要約、テストカバレッジを分析して特定された不審なファイルのリスト、関連する出力メッセージによるコンパイル構成の4種類の情報を活用する。
広く使われているGCCおよびLLVMコンパイラの120個の実世界のバグに対する、最先端のアプローチ(DiWi, RecBi, FuseFL)に対するAutoCBIの評価は、その有効性を示している。
特に、GCC/LLVMの上位1位では、AutoCBIは66.67%/69.23%、300%/340%、100%/57.14%のバグをRecBi、DiWi、FuseFLより分離している。
さらに、アブレーション研究は、我々のアプローチにおける各コンポーネントの重要性を裏付けるものである。
関連論文リスト
- ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - Enhancing Reverse Engineering: Investigating and Benchmarking Large Language Models for Vulnerability Analysis in Decompiled Binaries [2.696054049278301]
新しくコンパイルされたバイナリコード脆弱性データセットであるDeBinVulを紹介します。
DeBinVulを使って最先端のLLMを微調整し、バイナリコード脆弱性の検出においてパフォーマンスが19%、24%、21%向上したことを報告します。
論文 参考訳(メタデータ) (2024-11-07T18:54:31Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - LLM4Decompile: Decompiling Binary Code with Large Language Models [10.346311290153398]
Decompilationはバイナリコードを高レベルのソースコードに変換することを目的としているが、Ghidraのような従来のツールでは読み書きが難しい場合が多い。
LLM4Decompileは,バイナリコードのデコンパイルを訓練した最初の,かつ最大のオープンソースLLMシリーズ(1.3Bから33B)である。
結果、GPT-4oとGhidraをHumanEvalとExeBenchのベンチマークで100%以上上回った。
論文 参考訳(メタデータ) (2024-03-08T13:10:59Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Dcc --help: Generating Context-Aware Compiler Error Explanations with
Large Language Models [53.04357141450459]
dcc --helpはCS1とCS2のコースにデプロイされ、2565人の学生が10週間で64,000回以上このツールを使っている。
LLMが生成した説明は、コンパイル時間の90%と実行時の75%で概念的に正確であるが、コードに解決策を提供しない命令を無視することが多かった。
論文 参考訳(メタデータ) (2023-08-23T02:36:19Z) - Isolating Compiler Bugs by Generating Effective Witness Programs with Large Language Models [10.660543763757518]
既存のコンパイラのバグ分離アプローチは、問題をテストプログラムの突然変異問題に変換する。
コンパイラのバグ分離のための効率的なテストプログラムを生成するために,LLM4CBIという新しい手法を提案する。
GCCとLLVMの120以上の実際のバグに対する最先端のアプローチと比較し,LLM4CBIの利点を実証した。
論文 参考訳(メタデータ) (2023-07-02T15:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。