Fugu-MT 論文翻訳(概要): Towards Reliable LLM-Driven Fuzz Testing: Vision and Road Ahead

論文の概要: Towards Reliable LLM-Driven Fuzz Testing: Vision and Road Ahead

arxiv url: http://arxiv.org/abs/2503.00795v1
Date: Sun, 02 Mar 2025 08:46:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.609461
Title: Towards Reliable LLM-Driven Fuzz Testing: Vision and Road Ahead
Title（参考訳）: 信頼性の高いLCM駆動型ファジテストに向けて:ビジョンと道の先
Authors: Yiran Cheng, Hong Jin Kang, Lwin Khin Shar, Chaopeng Dong, Zhiqiang Shi, Shichao Lv, Limin Sun,
Abstract要約: 大言語モデル(LLM)はファズテスト(LLM4Fuzz)を自動化する変換ポテンシャルを提供する本稿は,LLM駆動ファジィの信頼性ボトルネックについて検討し,これらの制約に対処するための潜在的研究の方向性を検討することを目的とする。
参考スコア（独自算出の注目度）: 7.059490893549601
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fuzz testing is a crucial component of software security assessment, yet its effectiveness heavily relies on valid fuzz drivers and diverse seed inputs. Recent advancements in Large Language Models (LLMs) offer transformative potential for automating fuzz testing (LLM4Fuzz), particularly in generating drivers and seeds. However, current LLM4Fuzz solutions face critical reliability challenges, including low driver validity rates and seed quality trade-offs, hindering their practical adoption. This paper aims to examine the reliability bottlenecks of LLM-driven fuzzing and explores potential research directions to address these limitations. It begins with an overview of the current development of LLM4SE and emphasizes the necessity for developing reliable LLM4Fuzz solutions. Following this, the paper envisions a vision where reliable LLM4Fuzz transforms the landscape of software testing and security for industry, software development practitioners, and economic accessibility. It then outlines a road ahead for future research, identifying key challenges and offering specific suggestions for the researchers to consider. This work strives to spark innovation in the field, positioning reliable LLM4Fuzz as a fundamental component of modern software testing.
Abstract（参考訳）: ファズテストはソフトウェアセキュリティアセスメントの重要な要素であるが、その効果は有効なファズドライバと多様なシードインプットに大きく依存している。近年のLarge Language Models (LLMs) の進歩は、特にドライバや種の生成において、ファズテスト(LLM4Fuzz)の自動化に変革をもたらす可能性がある。しかしながら、現在のLLM4Fuzzソリューションは、ドライバの妥当性の低下やシード品質のトレードオフなど、重要な信頼性上の課題に直面しているため、実践的な採用を妨げている。本稿は,LLM駆動ファジィの信頼性ボトルネックについて検討し,これらの制約に対処するための潜在的研究の方向性を検討することを目的とする。 LLM4SEの現在の開発の概要から始まり、信頼性の高いLLM4Fuzzソリューションの開発の必要性を強調している。続いて、信頼性の高いLLM4Fuzzが、業界、ソフトウェア開発実践者、経済的なアクセシビリティといった、ソフトウェアテストとセキュリティの展望を変革するビジョンを構想する。そして、今後の研究に向けての道のりを概説し、重要な課題を特定し、研究者が考慮すべき具体的な提案を提示する。この研究はこの分野のイノベーションを刺激し、信頼性の高いLLM4Fuzzを現代のソフトウェアテストの基本コンポーネントとして位置づけようとしている。

関連論文リスト

From Code to Courtroom: LLMs as the New Software Judges [29.77858458399232]
大規模言語モデル(LLM)は、コード生成や要約といったソフトウェアエンジニアリングタスクを自動化するために、ますます使われています。人間の評価は効果的だが、非常にコストと時間を要する。 LLMを自動評価に用いるLLM-as-a-Judgeパラダイムが登場した。
論文参考訳（メタデータ） (2025-03-04T03:48:23Z)
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文参考訳（メタデータ） (2025-01-07T18:59:55Z)
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文参考訳（メタデータ） (2024-11-29T12:21:15Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文参考訳（メタデータ） (2024-06-24T15:45:22Z)
MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。 21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文参考訳（メタデータ） (2024-06-11T08:38:13Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文参考訳（メタデータ） (2024-02-15T22:01:45Z)
Large Language Models Based Fuzzing Techniques: A Survey [4.155653485098873]
効率的なソフトウェアテスト手法としてのファジングテストは、様々な領域で広く使われている。 LLM(Large Language Models)の急速な開発により、ソフトウェアテストの分野での応用が促進された。大きな言語モデルに基づいてファジングテストを採用する傾向が高まっている。
論文参考訳（メタデータ） (2024-02-01T05:34:03Z)
LLM4Fuzz: Guided Fuzzing of Smart Contracts with Large Language Models [7.833199151422389]
本稿では,自動スマートコントラクトセキュリティ分析を最適化するLLM4Fuzzを紹介する。大規模な言語モデル(LLM)を使用して、ファジィキャンペーンをインテリジェントにガイドし、優先順位付けする。評価の結果、効率性、カバレッジ、脆弱性検出が大幅に向上した。
論文参考訳（メタデータ） (2024-01-20T04:07:53Z)
How Effective Are They? Exploring Large Language Model Based Fuzz Driver Generation [31.77886516971502]
本研究は,LLMを用いてファズドライバを効果的に生成する上で重要な課題を対象とした,最初の詳細な研究である。我々の研究は、736,430個のファジィドライバの評価を行い、トークンコストは0.85億ドル(8000ドル以上)だった。我々の洞察はOSS-Fuzz-Genプロジェクトを改善するために実装され、業界におけるファズドライバの実践的生成を促進しました。
論文参考訳（メタデータ） (2023-07-24T01:49:05Z)
Software Testing with Large Language Models: Survey, Landscape, and Vision [32.34617250991638]
事前訓練された大規模言語モデル(LLM)は、自然言語処理と人工知能におけるブレークスルー技術として登場した。本稿では,ソフトウェアテストにおけるLCMの利用状況について概説する。
論文参考訳（メタデータ） (2023-07-14T08:26:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。