論文の概要: LLMs are All You Need? Improving Fuzz Testing for MOJO with Large Language Models
- arxiv url: http://arxiv.org/abs/2510.10179v1
- Date: Sat, 11 Oct 2025 11:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.827322
- Title: LLMs are All You Need? Improving Fuzz Testing for MOJO with Large Language Models
- Title(参考訳): LLMがすべて必要か? 大規模言語モデルによるMOJOのファズテストの改善
- Authors: Linghan Huang, Peizhou Zhao, Huaming Chen,
- Abstract要約: 大規模言語モデル(LLM)は、多種多様な効果的なテストインプットの自動生成によって、ソフトウェアテスト、特にファズテストに革命をもたらした。
MoJOは、PythonのユーザビリティとCとC++の効率を融合した高性能なAIプログラミング言語である。
MoJOFuzzerは、新興プログラミング言語のゼロショット学習環境向けに設計された最初の適応LDMベースのファジングフレームワークである。
- 参考スコア(独自算出の注目度): 7.171282546185869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of large language models (LLMs) has revolutionized software testing, particularly fuzz testing, by automating the generation of diverse and effective test inputs. This advancement holds great promise for improving software reliability. Meanwhile, the introduction of MOJO, a high-performance AI programming language blending Python's usability with the efficiency of C and C++, presents new opportunities to enhance AI model scalability and programmability. However, as a new language, MOJO lacks comprehensive testing frameworks and a sufficient corpus for LLM-based testing, which exacerbates model hallucination. In this case, LLMs will generate syntactically valid but semantically incorrect code, significantly reducing the effectiveness of fuzz testing. To address this challenge, we propose MOJOFuzzer, the first adaptive LLM-based fuzzing framework designed for zero-shot learning environments of emerging programming languages. MOJOFuzzer integrates a mutil-phase framework that systematically eliminates low-quality generated inputs before execution, significantly improving test case validity. Furthermore, MOJOFuzzer dynamically adapts LLM prompts based on runtime feedback for test case mutation, enabling an iterative learning process that continuously enhances fuzzing efficiency and bug detection performance. Our experimental results demonstrate that MOJOFuzzer significantly enhances test validity, API coverage, and bug detection performance, outperforming traditional fuzz testing and state-of-the-art LLM-based fuzzing approaches. Using MOJOFuzzer, we have conducted a first large-scale fuzz testing evaluation of MOJO, uncorvering 13 previous unknown bugs. This study not only advances the field of LLM-driven software testing but also establishes a foundational methodology for leveraging LLMs in the testing of emerging programming languages.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発は、多種多様な効果的なテストインプットの自動生成によって、ソフトウェアテスト、特にファズテストに革命をもたらした。
この進歩は、ソフトウェアの信頼性を向上させるための大きな約束である。
一方、PythonのユーザビリティとCとC++の効率を融合した高性能なAIプログラミング言語であるMOJOの導入は、AIモデルのスケーラビリティとプログラム性を高める新たな機会を提供する。
しかし、新しい言語として、MOJOは包括的なテストフレームワークと、モデル幻覚を悪化させるLLMベースのテストのための十分なコーパスを欠いている。
この場合、LLMは構文的に有効だが意味的に誤りのあるコードを生成し、ファズテストの有効性を著しく低下させる。
この課題に対処するために,新興プログラミング言語のゼロショット学習環境向けに設計された,最初の適応LDMベースのファジィフレームワークであるMOJOFuzzerを提案する。
MOJOFuzzerは、実行前に低品質のインプットを体系的に排除し、テストケースの妥当性を大幅に改善するmutil-phaseフレームワークを統合している。
さらに、MOJOFuzzerは、実行時フィードバックに基づいてLCMプロンプトを動的に適用し、ファジィ効率とバグ検出性能を継続的に向上する反復学習プロセスを実現する。
実験の結果,MOJOFuzzerはテストの妥当性,APIカバレッジ,バグ検出性能を大幅に向上し,従来のファズテストや最先端のLCMファズリングアプローチよりも優れていた。
筆者らはMOJOFuzzerを用いてMOJOの大規模なファズテストを行った。
本研究は、LLM駆動型ソフトウェアテストの分野を前進させるだけでなく、新興プログラミング言語のテストにおいてLLMを活用するための基礎的方法論を確立する。
関連論文リスト
- BASFuzz: Towards Robustness Evaluation of LLM-based NLP Software via Automated Fuzz Testing [8.893978269498524]
BASFuzzは、大規模言語モデル(LLM)ベースのNLPソフトウェアに適した効率的なファズテスト手法である。
ビームサーチとシミュレーションアニーリングを統合したビーム-アニーリング探索アルゴリズムを用いて,効率的なファジリングループを設計する。
実験では、BASFuzzは平均時間オーバーヘッドを2,163.852秒削減し、90.335%のテスト効率を達成している。
論文 参考訳(メタデータ) (2025-09-22T03:13:57Z) - LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。
LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。
これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文 参考訳(メタデータ) (2025-07-16T09:46:58Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.517293765116307]
ユニットテストはソフトウェアの信頼性に不可欠だが、手動のテスト作成には時間がかかり、しばしば無視される。
本研究は,LLM生成単体テストの大規模評価をクラスレベルで行った最初の大規模評価である。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - On the Challenges of Fuzzing Techniques via Large Language Models [3.8040519600259834]
本稿では,ファジングテストに大規模な言語モデルを用いた開発について,系統的に概説する。
論文の統計的分析と議論は、提出の現在までの最先端の手法を要約することによって行われる。
論文 参考訳(メタデータ) (2024-02-01T05:34:03Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。