Fugu-MT 論文翻訳(概要): Understanding Large Language Model Based Fuzz Driver Generation

論文の概要: Understanding Large Language Model Based Fuzz Driver Generation

arxiv url: http://arxiv.org/abs/2307.12469v3
Date: Fri, 14 Jun 2024 08:26:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 20:03:08.328706
Title: Understanding Large Language Model Based Fuzz Driver Generation
Title（参考訳）: 大規模言語モデルに基づくファズドライバ生成の理解
Authors: Cen Zhang, Mingqiang Bai, Yaowen Zheng, Yeting Li, Wei Ma, Xiaofei Xie, Yuekang Li, Limin Sun, Yang Liu,
Abstract要約: 本研究は,LLMを用いてファズドライバを効果的に生成する上で重要な課題を対象とした,最初の詳細な研究である。我々の研究は、736,430個のファジィドライバの評価を行い、トークンコストは0.85億ドル(8000ドル以上)だった。我々の洞察はOSS-Fuzz-Genプロジェクトを改善するために実装され、業界におけるファズドライバの実践的生成を促進しました。
参考スコア（独自算出の注目度）: 31.77886516971502
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM-based (Large Language Model) fuzz driver generation is a promising research area. Unlike traditional program analysis-based method, this text-based approach is more general and capable of harnessing a variety of API usage information, resulting in code that is friendly for human readers. However, there is still a lack of understanding regarding the fundamental issues on this direction, such as its effectiveness and potential challenges. To bridge this gap, we conducted the first in-depth study targeting the important issues of using LLMs to generate effective fuzz drivers. Our study features a curated dataset with 86 fuzz driver generation questions from 30 widely-used C projects. Six prompting strategies are designed and tested across five state-of-the-art LLMs with five different temperature settings. In total, our study evaluated 736,430 generated fuzz drivers, with 0.85 billion token costs ($8,000+ charged tokens). Additionally, we compared the LLM-generated drivers against those utilized in industry, conducting extensive fuzzing experiments (3.75 CPU-year). Our study uncovered that: - While LLM-based fuzz driver generation is a promising direction, it still encounters several obstacles towards practical applications; - LLMs face difficulties in generating effective fuzz drivers for APIs with intricate specifics. Three featured design choices of prompt strategies can be beneficial: issuing repeat queries, querying with examples, and employing an iterative querying process; - While LLM-generated drivers can yield fuzzing outcomes that are on par with those used in the industry, there are substantial opportunities for enhancement, such as extending contained API usage, or integrating semantic oracles to facilitate logical bug detection. Our insights have been implemented to improve the OSS-Fuzz-Gen project, facilitating practical fuzz driver generation in industry.
Abstract（参考訳）: LLM(Large Language Model)ファズドライバ生成は有望な研究分野である。従来のプログラム分析ベースの手法とは異なり、このテキストベースのアプローチはより一般的であり、様々なAPI使用情報を利用することができる。しかし、その効果や潜在的な課題など、この方向の根本的な問題に対する理解の欠如がまだ残っている。このギャップを埋めるために,LLMを用いてファズドライバを効果的に生成する上での重要な課題を対象とした,最初の詳細な研究を行った。本研究は,30の広く利用されているCプロジェクトから86のファズドライバ生成質問を収集した,キュレートされたデータセットを特徴とする。 6つのプロンプト戦略は、5つの異なる温度設定を持つ5つの最先端のLCMで設計およびテストされる。合計で736,430個のファジィドライバを評価したところ、トークンのコストは0.85億ドル(8000ドル以上)だった。さらに,LLM生成ドライバを産業用ドライバと比較し,ファジリング実験(3.75 CPU-year)を行った。 LLMをベースとしたファズドライバ生成は有望な方向であるが、実用的アプリケーションに対するいくつかの障害に直面している; - LLMは複雑な仕様を持つAPIに対して効果的なファズドライバを生成するのに困難に直面している。繰り返しクエリの発行、例によるクエリ、反復的なクエリプロセスの採用、 – LLMの生成したドライバは、業界で使用されているものと同等のファジィな結果を得ることができるが、含まれたAPI使用の延長や、論理的なバグ検出を容易にするセマンティックオーラクルの統合など、拡張する大きなチャンスがある。我々の洞察はOSS-Fuzz-Genプロジェクトを改善するために実装され、業界におけるファズドライバの実践的生成を促進しました。

関連論文リスト

Scheduzz: Constraint-based Fuzz Driver Generation with Dual Scheduling [16.453200060615234]
本稿では,ライブラリの合理的使用法を理解し,APIの組み合わせ制約を抽出するために,新しいライブラリファジリング手法であるSchudzzを提案する。 Scheduzzは計算オーバーヘッドを大幅に削減し、21のライブラリのうち16でUTopiaを上回っている。最新技術であるCKGFuzzer、Promptfuzz、手作りのOSS-Fuzzよりも1.62倍、1.50倍、および1.89倍高いカバレッジを実現している。
論文参考訳（メタデータ） (2025-07-24T10:51:11Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Towards Reliable LLM-Driven Fuzz Testing: Vision and Road Ahead [7.059490893549601]
大言語モデル(LLM)はファズテスト(LLM4Fuzz)を自動化する変換ポテンシャルを提供する本稿は,LLM駆動ファジィの信頼性ボトルネックについて検討し,これらの制約に対処するための潜在的研究の方向性を検討することを目的とする。
論文参考訳（メタデータ） (2025-03-02T08:46:39Z)
Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文参考訳（メタデータ） (2025-01-08T07:07:22Z)
A Code Knowledge Graph-Enhanced System for LLM-Based Fuzz Driver Generation [29.490817477791357]
ファジドライバ生成プロセスを自動化するために,コード知識グラフをインテリジェントエージェントと統合する新しいシステムであるCodeGraphGPTを提案する。ファズドライバ生成をコード生成タスクとしてフレーミングすることで、CodeGraphGPTはプログラム分析を活用して、コードリポジトリの知識グラフを構築する。我々は8つのオープンソースプロジェクトでCodeGraphGPTを評価し、最先端の手法と比較してコードカバレッジが平均8.73%向上した。
論文参考訳（メタデータ） (2024-11-18T12:41:16Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
Testing LLMs on Code Generation with Varying Levels of Prompt Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文参考訳（メタデータ） (2023-11-10T23:41:41Z)
Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。ネガティブな対立や干渉はパフォーマンスに悪影響を及ぼすかもしれない我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文参考訳（メタデータ） (2023-11-05T15:48:29Z)
LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文参考訳（メタデータ） (2023-09-08T10:44:19Z)
HOPPER: Interpretative Fuzzing for Libraries [6.36596812288503]
HOPPERはドメイン知識を必要とせずにライブラリをファズできる。ライブラリファジィングの問題をインタプリタファジィングの問題に変換する。
論文参考訳（メタデータ） (2023-09-07T06:11:18Z)
Hot or Cold? Adaptive Temperature Sampling for Code Generation with Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2023-09-06T06:27:33Z)
Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models [11.845239346943067]
パラメータ効率のよい微調整(PEFT)は、大規模言語モデル(LLM)をタスク固有のデータに効率的に専門化するための有望なアプローチである。本研究は,PEFTと量子化を組み合わせることで,より大きなLCMをチューニングし,メモリ使用量を大幅に削減する可能性を明らかにする。
論文参考訳（メタデータ） (2023-08-21T04:31:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。