論文の概要: Interleaved Learning and Exploration: A Self-Adaptive Fuzz Testing Framework for MLIR
- arxiv url: http://arxiv.org/abs/2510.07815v1
- Date: Thu, 09 Oct 2025 05:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.892964
- Title: Interleaved Learning and Exploration: A Self-Adaptive Fuzz Testing Framework for MLIR
- Title(参考訳): Interleaved Learning and Exploration: MLIRのための自己適応型ファズテストフレームワーク
- Authors: Zeyu Sun, Jingjing Liang, Weiyi Wang, Chenyao Suo, Junjie Chen, Fanjiang Xu,
- Abstract要約: 本稿では,MLIRのための自己適応型ファジィフレームワークであるFLEXを紹介する。
FLEXは、プログラム生成のためのニューラルネットワーク、多様性を促進するサンプリング戦略、フィードバック駆動の拡張ループを摂動させた。
上流MLIRコンパイラ上でのFLEXを4つの最先端ファジィに対して評価する。
- 参考スコア(独自算出の注目度): 13.369099005798104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MLIR (Multi-Level Intermediate Representation) has rapidly become a foundational technology for modern compiler frameworks, enabling extensibility across diverse domains. However, ensuring the correctness and robustness of MLIR itself remains challenging. Existing fuzzing approaches-based on manually crafted templates or rule-based mutations-struggle to generate sufficiently diverse and semantically valid test cases, making it difficult to expose subtle or deep-seated bugs within MLIR's complex and evolving code space. In this paper, we present FLEX, a novel self-adaptive fuzzing framework for MLIR. FLEX leverages neural networks for program generation, a perturbed sampling strategy to encourage diversity, and a feedback-driven augmentation loop that iteratively improves its model using both crashing and non-crashing test cases. Starting from a limited seed corpus, FLEX progressively learns valid syntax and semantics and autonomously produces high-quality test inputs. We evaluate FLEX on the upstream MLIR compiler against four state-of-the-art fuzzers. In a 30-day campaign, FLEX discovers 80 previously unknown bugs-including multiple new root causes and parser bugs-while in 24-hour fixed-revision comparisons, it detects 53 bugs (over 3.5x as many as the best baseline) and achieves 28.2% code coverage, outperforming the next-best tool by 42%. Ablation studies further confirm the critical role of both perturbed generation and diversity augmentation in FLEX's effectiveness.
- Abstract(参考訳): MLIR(Multi-Level Intermediate Representation)は、現代のコンパイラフレームワークの基盤技術として急速に発展し、多様なドメインにわたる拡張を可能にしている。
しかし、MLIR自体の正しさと堅牢性を保証することは依然として困難である。
手作業によるテンプレートやルールベースの突然変異をベースとした既存のファジィングアプローチは、十分な多様性と意味論的に有効なテストケースを生成するために、MLIRの複雑で進化するコード空間内で、微妙な、あるいは深い位置にあるバグを明らかにするのが難しくなる。
本稿では,MLIRのための自己適応型ファジィフレームワークであるFLEXについて述べる。
FLEXは、プログラム生成にニューラルネットワークを活用し、多様性を促進するための摂動サンプリング戦略と、クラッシュテストと非クラッシングテストの両方を使用してモデルを改善するフィードバック駆動強化ループを活用する。
FLEXは限定されたシードコーパスから始まり、有効な構文と意味を徐々に学習し、自律的に高品質なテストインプットを生成する。
上流MLIRコンパイラ上でのFLEXを4つの最先端ファジィに対して評価する。
30日間のキャンペーンで、FLEXは80の既知のバグ(複数の新しい根本原因やパーサバグを含む)を発見したが、24時間固定修正比較では53のバグ(最高のベースラインの3.5倍以上)を検出し、28.2%のコードカバレッジを達成した。
アブレーション研究はFLEXの有効性において、摂動生成と多様性増強の両方が重要な役割を担っていることをさらに確認した。
関連論文リスト
- Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。
LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。
これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文 参考訳(メタデータ) (2025-07-16T09:46:58Z) - The Foundation Cracks: A Comprehensive Study on Bugs and Testing Practices in LLM Libraries [37.57398329330302]
大規模言語モデル(LLM)ライブラリは、今日のAI革命を支える基盤インフラストラクチャとして登場した。
LLMエコシステムにおけるそれらの重要な役割にもかかわらず、これらのライブラリは、それら上に構築されたAIシステムの信頼性を脅かすような、頻繁な品質の問題とバグに直面している。
本稿では,近代LLMライブラリにおけるバグの特徴とテスト実践に関する総合的研究について紹介する。
論文 参考訳(メタデータ) (2025-06-14T03:00:36Z) - Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.327835928133535]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。
実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。
LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文 参考訳(メタデータ) (2024-10-10T01:14:58Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Fuzzing Deep Learning Compilers with HirGen [12.068825031724229]
HirGenは、ハイレベルIRの最適化において、コーディングミスを効果的に露呈することを目的とした自動テスト技術である。
HirGenは、TVMで発生した21のバグを正常に検出し、17のバグが確認され、12が修正された。
実験の結果,HirGenは48時間以内にベースラインで検出できない10のクラッシュや不整合を検出することができた。
論文 参考訳(メタデータ) (2022-08-03T16:26:30Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Coverage-Guided Tensor Compiler Fuzzing with Joint IR-Pass Mutation [20.519361342905775]
広範に使われているTVMテンソルコンパイラのためのファジィ手法であるTzerを提案する。
以上の結果から,Tzerはテンソルコンパイラテストにおいて,既存のファジリング技術よりも大幅に優れていることがわかった。
これまでTzerは、TVMの49の既知のバグを検出し、37のバグが確認され、25のバグが修正された。
論文 参考訳(メタデータ) (2022-02-21T01:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。