Fugu-MT 論文翻訳(概要): SAFLITE: Fuzzing Autonomous Systems via Large Language Models

論文の概要: SAFLITE: Fuzzing Autonomous Systems via Large Language Models

arxiv url: http://arxiv.org/abs/2412.18727v1
Date: Wed, 25 Dec 2024 01:00:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:04.911536
Title: SAFLITE: Fuzzing Autonomous Systems via Large Language Models
Title（参考訳）: SAFLITE: 大規模言語モデルによる自律システムのファジィング
Authors: Taohong Zhu, Adrians Skapars, Fardeen Mackenzie, Declan Kehoe, William Newton, Suzanne Embury, Youcheng Sun,
Abstract要約: 本稿では,自律システムにおけるファジテストの効率化を目的とした普遍的な枠組みを提案する。コアとなるSaFliTeは、テストケースが事前に定義された安全基準を満たすかどうかを評価する予測コンポーネントである。 GPT-3.5, Mistral-7B, Llama2-7B など様々な LLM を用いて SaFliTe をインスタンス化し, PGFuzz, DeepHyperion-UAV, CAMBA, TUMB の4つのファジテストツールに統合することにより, SaFliTe の評価を行った。
参考スコア（独自算出の注目度）: 5.652209612560521
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fuzz testing effectively uncovers software vulnerabilities; however, it faces challenges with Autonomous Systems (AS) due to their vast search spaces and complex state spaces, which reflect the unpredictability and complexity of real-world environments. This paper presents a universal framework aimed at improving the efficiency of fuzz testing for AS. At its core is SaFliTe, a predictive component that evaluates whether a test case meets predefined safety criteria. By leveraging the large language model (LLM) with information about the test objective and the AS state, SaFliTe assesses the relevance of each test case. We evaluated SaFliTe by instantiating it with various LLMs, including GPT-3.5, Mistral-7B, and Llama2-7B, and integrating it into four fuzz testing tools: PGFuzz, DeepHyperion-UAV, CAMBA, and TUMB. These tools are designed specifically for testing autonomous drone control systems, such as ArduPilot, PX4, and PX4-Avoidance. The experimental results demonstrate that, compared to PGFuzz, SaFliTe increased the likelihood of selecting operations that triggered bug occurrences in each fuzzing iteration by an average of 93.1\%. Additionally, after integrating SaFliTe, the ability of DeepHyperion-UAV, CAMBA, and TUMB to generate test cases that caused system violations increased by 234.5\%, 33.3\%, and 17.8\%, respectively. The benchmark for this evaluation was sourced from a UAV Testing Competition.
Abstract（参考訳）: ファズテストはソフトウェアの脆弱性を効果的に発見するが、実際の環境の予測不可能性と複雑さを反映した膨大な検索スペースと複雑な状態空間のために、自律システム(AS)の課題に直面している。本稿では,ASのファジテストの効率化を目的とした普遍的な枠組みを提案する。コアとなるSaFliTeは、テストケースが事前に定義された安全基準を満たすかどうかを評価する予測コンポーネントである。大きな言語モデル(LLM)にテスト目標とAS状態に関する情報を活用することで、SaFliTeは各テストケースの関連性を評価する。 GPT-3.5, Mistral-7B, Llama2-7B など様々な LLM を用いて SaFliTe をインスタンス化し, PGFuzz, DeepHyperion-UAV, CAMBA, TUMB の4つのファジテストツールに統合することにより, SaFliTe の評価を行った。これらのツールは、ArduPilot、PX4、PX4-Avoidanceなどの自律型ドローン制御システムをテストするために特別に設計されている。実験の結果、PGFuzzと比較して、SaFliTeは各ファジリングイテレーションのバグ発生の原因となる操作を平均93.1\%で選択する可能性が高まった。さらに、SaFliTeの統合後、DeepHyperion-UAV、CAMBA、TUMBがシステム違反の原因となるテストケースを生成する能力は、それぞれ234.5\%、33.3\%、17.8\%に増加した。この評価のベンチマークは、UAVテストコンペティションから得られたものだ。

関連論文リスト

Investigating the Performance of Small Language Models in Detecting Test Smells in Manual Test Cases [8.275680062883216]
本研究では,テスト臭を自動的に検出する小言語モデル (SLM) の可能性について検討した。実世界のUbuntuテストケース143に対して,Gemma3,Llama3.2,Phi-4を評価する。
論文参考訳（メタデータ） (2025-07-17T12:06:29Z)
Rethinking Verification for LLM Code Generation: From Generation to Testing [44.46778801679273]
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
論文参考訳（メタデータ） (2025-07-09T14:58:47Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
Code Generation with Small Language Models: A Deep Evaluation on Codeforces [2.314213846671956]
小言語モデルは、より高速な推論、デプロイメントオーバーヘッドの低減、ドメイン固有のタスクへの適応性の向上を提供する。 800から2100までのEloレーティングにまたがる280のCodeforce問題の5つのオープンSLMをベンチマークします。 PHI-4 14BはSLMの中で最高の性能を発揮し、パス@3は63.6%だった。
論文参考訳（メタデータ） (2025-04-09T23:57:44Z)
What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation [3.8244417073114003]
本稿では,AUGER(Attention-based Self-guided Automatic Unit Test GenERation)アプローチを提案する。 AUGERには欠陥検出とエラートリガーという2つのステージがある。 F1スコアと欠陥検出精度で4.7%から35.3%向上した。ユニットテスト生成において、最先端(SOTA)アプローチよりも23から84のエラーを発生させることができる。
論文参考訳（メタデータ） (2024-12-01T14:28:48Z)
Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文参考訳（メタデータ） (2024-11-25T12:44:02Z)
Automating Quantum Software Maintenance: Flakiness Detection and Root Cause Analysis [4.554856650068748]
コードの変更なしに不整合に合格または失敗する、不安定なテストは、ソフトウェア工学における大きな課題である。量子ソフトウェアにおける不安定なテストを自動的に検出するフレームワークの構築を目指しています。
論文参考訳（メタデータ） (2024-10-31T02:43:04Z)
LiTelFuzz : Swarms Fuzzing Based on Linear Temporal Logic Constraints [16.59887508016901]
マルチロボット群における論理的欠陥を発見するための形式的検証手法を提案する。具体的には,これらの制約に基づいて,SwarmとSwarmの線形時間論理制約を抽象化する。このアイデアに基づいて、LiTelFuzzをベースとした単一攻撃ドローンファジリングスキームと複数攻撃ドローンスキームを実装した。
論文参考訳（メタデータ） (2024-09-07T06:46:23Z)
ProphetFuzz: Fully Automated Prediction and Fuzzing of High-Risk Option Combinations with Only Documentation via Large Language Model [16.647211264954667]
オプションの組み合わせに関連する脆弱性は、膨大な検索スペースのため、ソフトウェアのセキュリティテストにおいて重大な課題となる。提案手法は,大規模言語モデル(LLM)を駆動し,リスクの高い選択肢の組み合わせを予測するために,慎重に設計したプロンプトエンジニアリングを利用する。 ProphetFuzzは1プログラムあたり平均8.69ドルという価格で1748のハイリスクオプションの組み合わせを予測した。
論文参考訳（メタデータ） (2024-09-02T03:31:08Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。 TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。 AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文参考訳（メタデータ） (2023-11-14T10:16:05Z)
Robust Multi-Agent Control via Maximum Entropy Heterogeneous-Agent Reinforcement Learning [65.60470000696944]
本稿では,マルチエージェント強化学習における課題を解決するために,アンフィストチャスティックな政策を学習するための統一的な枠組みを提案する。 The MaxEnt framework, we propose emphHeterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。 HASACは, Bi-DexHands, Multi-Agent MuJoCo, Pursuit-Evade, StarCraft Multi-Agent Challenge, Google Research Football, Multi-Agent Particle Environment, Light Aircraft Gameの7つのベンチマークで評価した。
論文参考訳（メタデータ） (2023-06-19T06:22:02Z)
Using Sampling to Estimate and Improve Performance of Automated Scoring Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文参考訳（メタデータ） (2021-11-17T05:00:51Z)
Tasty Burgers, Soggy Fries: Probing Aspect Robustness in Aspect-Based Sentiment Analysis [71.40390724765903]
アスペクトベースの感情分析(ABSA)は、テキストの特定の側面に対する感情を予測することを目的としている。既存のABSAテストセットは、モデルが対象のアスペクトの感情を非ターゲットのアスペクトと区別できるかどうかを調査するために使用できない。我々は、対象の側面の感情から、対象でない側面の相反する感情を解き放つための新しい例を生成する。
論文参考訳（メタデータ） (2020-09-16T22:38:18Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。