Fugu-MT 論文翻訳(概要): Large Language Models Based JSON Parser Fuzzing for Bug Discovery and Behavioral Analysis

論文の概要: Large Language Models Based JSON Parser Fuzzing for Bug Discovery and Behavioral Analysis

arxiv url: http://arxiv.org/abs/2410.21806v2
Date: Wed, 30 Oct 2024 02:28:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.739062
Title: Large Language Models Based JSON Parser Fuzzing for Bug Discovery and Behavioral Analysis
Title（参考訳）: 大規模言語モデルに基づくバグ発見と行動解析のためのJSONパーザファジリング
Authors: Zhiyuan Zhong, Zhezhen Cao, Zhanwei Zhang,
Abstract要約: この研究プロジェクトは、テストを強化するためにLLM(Large Language Models)を活用することに焦点を当てている。主な目的は、オープンソースにおける潜在的なバグの発見にLLMを使用してテストケースとミュータントを生成することである。根底にあるバグを明らかにし、振る舞いの多様性を発見(そして克服)することを目的としています。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fuzzing has been incredibly successful in uncovering bugs and vulnerabilities across diverse software systems. JSON parsers play a vital role in modern software development, and ensuring their reliability is of great importance. This research project focuses on leveraging Large Language Models (LLMs) to enhance JSON parser testing. The primary objectives are to generate test cases and mutants using LLMs for the discovery of potential bugs in open-source JSON parsers and the identification of behavioral diversities among them. We aim to uncover underlying bugs, plus discovering (and overcoming) behavioral diversities.
Abstract（参考訳）: ファジィングは、様々なソフトウェアシステムにまたがるバグや脆弱性を明らかにするのに驚くほど成功した。 JSONパーサは現代のソフトウェア開発において重要な役割を担い、信頼性を保証することが非常に重要である。この研究プロジェクトは、JSONパーサテストを強化するためにLLM(Large Language Models)を活用することに焦点を当てている。主な目的は、オープンソースのJSONパーサの潜在的なバグの発見とそれらの間の振る舞いの多様性の識別にLLMを使用してテストケースとミュータントを生成することである。根底にあるバグを明らかにし、振る舞いの多様性を発見(そして克服)することを目的としています。

関連論文リスト

An Initial Exploration of Fine-tuning Small Language Models for Smart Contract Reentrancy Vulnerability Detection [1.1049608786515839]
大規模言語モデル(LLM)は、様々なコーディングタスクにますます使われている。ニッチ領域の適切な結果を得るために,より小さな言語モデルを微調整できるかどうかを評価する。
論文参考訳（メタデータ） (2025-05-25T09:28:33Z)
Detecting Functional Bugs in Smart Contracts through LLM-Powered and Bug-Oriented Composite Analysis [34.8337182669106]
スマートコントラクトにおける機能的バグを検出する自動化およびスケーラブルなシステムである PROMFUZZ の設計と実装を行う。まず,デュアルエージェント・プロンプト・エンジニアリング・ストラテジーを活用するLarge Language Model (LLM) 駆動分析フレームワークを提案する。最後に,高レベルのビジネスモデルから低レベルのスマートコントラクト実装へ論理情報をマッピングする,バグ指向ファジリングエンジンを設計する。
論文参考訳（メタデータ） (2025-03-31T04:39:51Z)
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation [0.0]
エラーを引き起こすインプットは、ソフトウェアバグの診断と分析において重要な役割を担います。従来の研究では、様々な自然言語処理(NLP)技術を利用して自動入力抽出を行っている。大規模言語モデル (LLMs) の出現により、重要な研究課題が生じる: ジェネレーティブLLMは、バグレポートから障害誘発インプットを効果的に抽出できるのか?
論文参考訳（メタデータ） (2025-03-26T14:25:01Z)
Learning to Generate Structured Output with Schema Reinforcement Learning [83.09230124049667]
本研究では,大規模言語モデル(LLM)の構造的生成能力について検討する。最新のLLMはまだ有効な文字列を生成するのに苦労している。我々のモデルでは、出力と下流の両方のタスクが大幅に改善されている。
論文参考訳（メタデータ） (2025-02-26T06:45:29Z)
Design choices made by LLM-based test generators prevent them from finding bugs [0.850206009406913]
本稿は,最近のLCMベースのテスト生成ツールであるCodium CoverAgentやCoverUpが,効果的にバグを見つけたり,意図せずに欠陥コードを検証することができるかどうかを,批判的に検証する。実際の人手によるバグ検出コードを入力として使用すると、これらのツールを評価し、LCM生成テストがバグの検出に失敗する可能性を示し、さらに警告として、生成されたテストスイートのバグを検証することで、その設計が状況を悪化させる可能性があることを示します。
論文参考訳（メタデータ） (2024-12-18T18:33:26Z)
Are Large Language Models Memorizing Bug Benchmarks? [6.640077652362016]
大規模言語モデル(LLM)は、コード生成、バグ検出、修復など、様々なソフトウェアエンジニアリングタスクに不可欠なものになっている。ソフトウェアエンジニアリングコミュニティの懸念は、ベンチマークがデータ漏洩のリスクのため、真のLLMパフォーマンスを確実に反映していないことだ。一般的なLSMを系統的に評価し、広く使われているバグベンチマークからデータ漏洩に対する感受性を評価する。
論文参考訳（メタデータ） (2024-11-20T13:46:04Z)
Advancing Bug Detection in Fastjson2 with Large Language Models Driven Unit Test Generation [8.977049061406325]
ユニットテスト生成技術は、様々なライブラリのバグを特定するために広く採用されている。産業実践において、図書館内のオラクルのバグを露呈するための体系的なテストは限られている。テストGenでは、34の実際のバグがfast2で見つかり、そのうち30がすでに修正されており、うち12の非クラッシングバグが修正されています。
論文参考訳（メタデータ） (2024-10-12T07:46:05Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
What Happens When We Fuzz? Investigating OSS-Fuzz Bug History [0.9772968596463595]
我々は2022年3月12日までにOSS-Fuzzが公表した44,102件の問題を分析した。コードを含むバグの発生時期を推定するために,バグ貢献のコミットを特定し,検出から修正までのタイムラインを測定した。
論文参考訳（メタデータ） (2023-05-19T05:15:36Z)
Large Language Models are Few-shot Testers: Exploring LLM-based General Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。 LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文参考訳（メタデータ） (2022-09-23T10:50:47Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文参考訳（メタデータ） (2020-05-12T11:01:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。