論文の概要: Interleaving Large Language Models for Compiler Testing
- arxiv url: http://arxiv.org/abs/2508.18955v1
- Date: Tue, 26 Aug 2025 11:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.826322
- Title: Interleaving Large Language Models for Compiler Testing
- Title(参考訳): コンパイラテストのための大規模言語モデルのインターリーブ
- Authors: Yunbo Ni, Shaohua Li,
- Abstract要約: AIモデルでコンパイラをテストすることは非常に有望だが、現在のアプローチでは2つの重要な問題に悩まされている。
テストプロセスを2つの異なるフェーズに分離する新しいコンパイラテストフレームワークを提案する。
オンラインフェーズでは、これらのコード片を戦略的に組み合わせて高品質で有効なテストプログラムを構築することで再利用します。
- 参考スコア(独自算出の注目度): 2.4796712345498015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Testing compilers with AI models, especially large language models (LLMs), has shown great promise. However, current approaches struggle with two key problems: The generated programs for testing compilers are often too simple, and extensive testing with the LLMs is computationally expensive. In this paper, we propose a novel compiler testing framework that decouples the testing process into two distinct phases: an offline phase and an online phase. In the offline phase, we use LLMs to generate a collection of small but feature-rich code pieces. In the online phase, we reuse these code pieces by strategically combining them to build high-quality and valid test programs, which are then used to test compilers. We implement this idea in a tool, LegoFuzz, for testing C compilers. The results are striking: we found 66 bugs in GCC and LLVM, the most widely used C compilers. Almost half of the bugs are miscompilation bugs, which are serious and hard-to-find bugs that none of the existing LLM-based tools could find. We believe this efficient design opens up new possibilities for using AI models in software testing beyond just C compilers.
- Abstract(参考訳): AIモデル、特に大きな言語モデル(LLM)でコンパイラをテストすることは、非常に有望である。
しかし、現在のアプローチでは、2つの重要な問題に対処している。 コンパイラのテスト用の生成されたプログラムは、しばしば単純すぎ、LLMによる広範なテストは、計算的に高価である。
本稿では,テストプロセスをオフラインフェーズとオンラインフェーズの2つの異なるフェーズに分離する,新しいコンパイラテストフレームワークを提案する。
オフラインフェーズでは、LLMを使用して、小さなが機能豊富なコード片のコレクションを生成します。
オンラインフェーズでは、これらのコード片を戦略的に組み合わせ、高品質で有効なテストプログラムを構築することで再利用します。
私たちはこのアイデアを、CコンパイラをテストするツールであるLegoFuzzに実装しています。
GCCとLLVMで66のバグが見つかりました。
バグのほぼ半数は誤コンパイルバグであり、これは重大なバグであり、既存のLLMベースのツールでは見つからなかった。
この効率的な設計は、Cコンパイラだけでなく、ソフトウェアテストでAIモデルを使用する新たな可能性を開くと信じています。
関連論文リスト
- Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - RAG-Based Fuzzing of Cross-Architecture Compilers [0.8302146576157498]
OneAPIは、開発者による最小限の努力で、クロスアーキテクチャなソフトウェア開発をサポートするオープンスタンダードである。
OneAPIはDPC++とC++コンパイラを提供しており、その正確性、信頼性、セキュリティを検証するために徹底的にテストする必要がある。
本稿では,検索拡張生成(RAG)の概念を統合した大規模言語モデル (LLM) ベースのコンパイラファジィツールを提案する。
論文 参考訳(メタデータ) (2025-04-11T20:46:52Z) - Finding Missed Code Size Optimizations in Compilers using LLMs [1.90019787465083]
我々は,大規模言語モデルと一連の差分テスト戦略を組み合わせた新しいテスト手法を開発した。
当社のアプローチでは,実装に150行未満のコードが必要です。
現在までに、本番コンパイラの24のバグが報告されている。
論文 参考訳(メタデータ) (2024-12-31T21:47:46Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Evolutionary Generative Fuzzing for Differential Testing of the Kotlin
Compiler [14.259471945857431]
JetBrainsが開発したKotlinコンパイラのバグ発見における差分テストの有効性について検討する。
そこで我々は,K1コンパイラとK2コンパイラの入力プログラムを生成するブラックボックス生成手法を提案する。
ケーススタディでは,提案手法がK1とK2のバグを効果的に検出している。
論文 参考訳(メタデータ) (2024-01-12T16:01:12Z) - A Survey of Modern Compiler Fuzzing [0.0]
この調査は、コンパイラの欠陥を理解し、対処するための研究成果の概要を提供する。
研究者は、その症状や根本原因など、コンパイラーのバグに関する調査と専門知識をカバーしている。
さらに、テストプログラムの構築やテストオラクルの設計など、ファジング技術を設計する研究者の取り組みについても取り上げている。
論文 参考訳(メタデータ) (2023-06-12T06:03:51Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - Configuring Test Generators using Bug Reports: A Case Study of GCC
Compiler and Csmith [2.1016374925364616]
本稿では,バグレポートのコードスニペットを使用して,テスト生成のガイドを行う。
GCCの8つのバージョンでこのアプローチを評価します。
我々は,本手法がGCCの最先端テスト生成技術よりも高いカバレッジを提供し,誤コンパイル障害を引き起こすことを発見した。
論文 参考訳(メタデータ) (2020-12-19T11:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。