論文の概要: SAFLITE: Fuzzing Autonomous Systems via Large Language Models
- arxiv url: http://arxiv.org/abs/2412.18727v1
- Date: Wed, 25 Dec 2024 01:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:11.545953
- Title: SAFLITE: Fuzzing Autonomous Systems via Large Language Models
- Title(参考訳): SAFLITE: 大規模言語モデルによる自律システムのファジィング
- Authors: Taohong Zhu, Adrians Skapars, Fardeen Mackenzie, Declan Kehoe, William Newton, Suzanne Embury, Youcheng Sun,
- Abstract要約: 本稿では,自律システムにおけるファジテストの効率化を目的とした普遍的な枠組みを提案する。
コアとなるSaFliTeは、テストケースが事前に定義された安全基準を満たすかどうかを評価する予測コンポーネントである。
GPT-3.5, Mistral-7B, Llama2-7B など様々な LLM を用いて SaFliTe をインスタンス化し, PGFuzz, DeepHyperion-UAV, CAMBA, TUMB の4つのファジテストツールに統合することにより, SaFliTe の評価を行った。
- 参考スコア(独自算出の注目度): 5.652209612560521
- License:
- Abstract: Fuzz testing effectively uncovers software vulnerabilities; however, it faces challenges with Autonomous Systems (AS) due to their vast search spaces and complex state spaces, which reflect the unpredictability and complexity of real-world environments. This paper presents a universal framework aimed at improving the efficiency of fuzz testing for AS. At its core is SaFliTe, a predictive component that evaluates whether a test case meets predefined safety criteria. By leveraging the large language model (LLM) with information about the test objective and the AS state, SaFliTe assesses the relevance of each test case. We evaluated SaFliTe by instantiating it with various LLMs, including GPT-3.5, Mistral-7B, and Llama2-7B, and integrating it into four fuzz testing tools: PGFuzz, DeepHyperion-UAV, CAMBA, and TUMB. These tools are designed specifically for testing autonomous drone control systems, such as ArduPilot, PX4, and PX4-Avoidance. The experimental results demonstrate that, compared to PGFuzz, SaFliTe increased the likelihood of selecting operations that triggered bug occurrences in each fuzzing iteration by an average of 93.1\%. Additionally, after integrating SaFliTe, the ability of DeepHyperion-UAV, CAMBA, and TUMB to generate test cases that caused system violations increased by 234.5\%, 33.3\%, and 17.8\%, respectively. The benchmark for this evaluation was sourced from a UAV Testing Competition.
- Abstract(参考訳): ファズテストはソフトウェアの脆弱性を効果的に発見するが、実際の環境の予測不可能性と複雑さを反映した膨大な検索スペースと複雑な状態空間のために、自律システム(AS)の課題に直面している。
本稿では,ASのファジテストの効率化を目的とした普遍的な枠組みを提案する。
コアとなるSaFliTeは、テストケースが事前に定義された安全基準を満たすかどうかを評価する予測コンポーネントである。
大きな言語モデル(LLM)にテスト目標とAS状態に関する情報を活用することで、SaFliTeは各テストケースの関連性を評価する。
GPT-3.5, Mistral-7B, Llama2-7B など様々な LLM を用いて SaFliTe をインスタンス化し, PGFuzz, DeepHyperion-UAV, CAMBA, TUMB の4つのファジテストツールに統合することにより, SaFliTe の評価を行った。
これらのツールは、ArduPilot、PX4、PX4-Avoidanceなどの自律型ドローン制御システムをテストするために特別に設計されている。
実験の結果、PGFuzzと比較して、SaFliTeは各ファジリングイテレーションのバグ発生の原因となる操作を平均93.1\%で選択する可能性が高まった。
さらに、SaFliTeの統合後、DeepHyperion-UAV、CAMBA、TUMBがシステム違反の原因となるテストケースを生成する能力は、それぞれ234.5\%、33.3\%、17.8\%に増加した。
この評価のベンチマークは、UAVテストコンペティションから得られたものだ。
関連論文リスト
- Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Automating Quantum Software Maintenance: Flakiness Detection and Root Cause Analysis [4.554856650068748]
コードの変更なしに不整合に合格または失敗する、不安定なテストは、ソフトウェア工学における大きな課題である。
量子ソフトウェアにおける不安定なテストを自動的に検出するフレームワークの構築を目指しています。
論文 参考訳(メタデータ) (2024-10-31T02:43:04Z) - LiTelFuzz : Swarms Fuzzing Based on Linear Temporal Logic Constraints [16.59887508016901]
マルチロボット群における論理的欠陥を発見するための形式的検証手法を提案する。
具体的には,これらの制約に基づいて,SwarmとSwarmの線形時間論理制約を抽象化する。
このアイデアに基づいて、LiTelFuzzをベースとした単一攻撃ドローンファジリングスキームと複数攻撃ドローンスキームを実装した。
論文 参考訳(メタデータ) (2024-09-07T06:46:23Z) - ProphetFuzz: Fully Automated Prediction and Fuzzing of High-Risk Option Combinations with Only Documentation via Large Language Model [16.647211264954667]
オプションの組み合わせに関連する脆弱性は、膨大な検索スペースのため、ソフトウェアのセキュリティテストにおいて重大な課題となる。
提案手法は,大規模言語モデル(LLM)を駆動し,リスクの高い選択肢の組み合わせを予測するために,慎重に設計したプロンプトエンジニアリングを利用する。
ProphetFuzzは1プログラムあたり平均8.69ドルという価格で1748のハイリスクオプションの組み合わせを予測した。
論文 参考訳(メタデータ) (2024-09-02T03:31:08Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Fuzzing for CPS Mutation Testing [3.512722797771289]
本稿では, ファジテストを利用した突然変異検査手法を提案し, C および C++ ソフトウェアで有効であることが証明された。
実験により, ファジテストに基づく突然変異試験は, シンボル実行よりも高い頻度で生存変異体を殺傷することが明らかとなった。
論文 参考訳(メタデータ) (2023-08-15T16:35:31Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Tasty Burgers, Soggy Fries: Probing Aspect Robustness in Aspect-Based
Sentiment Analysis [71.40390724765903]
アスペクトベースの感情分析(ABSA)は、テキストの特定の側面に対する感情を予測することを目的としている。
既存のABSAテストセットは、モデルが対象のアスペクトの感情を非ターゲットのアスペクトと区別できるかどうかを調査するために使用できない。
我々は、対象の側面の感情から、対象でない側面の相反する感情を解き放つための新しい例を生成する。
論文 参考訳(メタデータ) (2020-09-16T22:38:18Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。