Fugu-MT 論文翻訳(概要): HALURust: Exploiting Hallucinations of Large Language Models to Detect Vulnerabilities in Rust

論文の概要: HALURust: Exploiting Hallucinations of Large Language Models to Detect Vulnerabilities in Rust

arxiv url: http://arxiv.org/abs/2503.10793v1
Date: Thu, 13 Mar 2025 18:38:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.036551
Title: HALURust: Exploiting Hallucinations of Large Language Models to Detect Vulnerabilities in Rust
Title（参考訳）: HALURust: Rustの脆弱性を検出するために、大規模な言語モデルの幻覚を爆発させる
Authors: Yu Luo, Han Zhou, Mengtao Zhang, Dylan De La Rosa, Hafsa Ahmed, Weifeng Xu, Dianxiang Xu,
Abstract要約: 2018年以降、442のRust関連の脆弱性が現実世界のアプリケーションで報告されている。本稿では,大規模言語モデル(LLM)の幻覚を利用して,現実のRustシナリオの脆弱性を検出する新しいフレームワークであるHALURustを紹介する。 HALURustは、54のアプリケーションにまたがる447の関数と18,691行のコードを含む、81の現実世界の脆弱性のデータセットで評価された。
参考スコア（独自算出の注目度）: 5.539291692976558
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As an emerging programming language, Rust has rapidly gained popularity and recognition among developers due to its strong emphasis on safety. It employs a unique ownership system and safe concurrency practices to ensure robust safety. Despite these safeguards, security in Rust still presents challenges. Since 2018, 442 Rust-related vulnerabilities have been reported in real-world applications. The limited availability of data has resulted in existing vulnerability detection tools performing poorly in real-world scenarios, often failing to adapt to new and complex vulnerabilities. This paper introduces HALURust, a novel framework that leverages hallucinations of large language models (LLMs) to detect vulnerabilities in real-world Rust scenarios. HALURust leverages LLMs' strength in natural language generation by transforming code into detailed vulnerability analysis reports. The key innovation lies in prompting the LLM to always assume the presence of a vulnerability. If the code sample is vulnerable, the LLM provides an accurate analysis; if not, it generates a hallucinated report. By fine-tuning LLMs on these hallucinations, HALURust can effectively distinguish between vulnerable and non-vulnerable code samples. HALURust was evaluated on a dataset of 81 real-world vulnerabilities, covering 447 functions and 18,691 lines of code across 54 applications. It outperformed existing methods, achieving an F1 score of 77.3%, with over 10% improvement. The hallucinated report-based fine-tuning improved detection by 20\% compared to traditional code-based fine-tuning. Additionally, HALURust effectively adapted to unseen vulnerabilities and other programming languages, demonstrating strong generalization capabilities.
Abstract（参考訳）: 新たなプログラミング言語としてRustは,安全性を重視した開発者の間で急速に人気を集めている。独自のオーナシップシステムと安全な並行性プラクティスを採用して、堅牢な安全性を確保しています。これらの保護にもかかわらず、Rustのセキュリティは依然として課題を呈している。 2018年以降、442のRust関連の脆弱性が現実世界のアプリケーションで報告されている。データの可用性が制限されたため、既存の脆弱性検出ツールが現実のシナリオでは不十分で、新しい複雑な脆弱性に適応できない場合が多い。本稿では,大規模言語モデル(LLM)の幻覚を利用して,現実のRustシナリオの脆弱性を検出する新しいフレームワークであるHALURustを紹介する。 HALURustは、コードを詳細な脆弱性分析レポートに変換することで、自然言語生成におけるLLMの強みを活用する。鍵となるイノベーションは、LSMが常に脆弱性の存在を前提とするように促すことです。コードサンプルが脆弱な場合、LCMは正確な分析を行い、そうでなければ幻覚レポートを生成する。これらの幻覚のLLMを微調整することで、HALURUStは脆弱性のあるコードサンプルと非脆弱性なコードサンプルを効果的に区別することができる。 HALURustは、54のアプリケーションにまたがる447の関数と18,691行のコードを含む、81の現実世界の脆弱性のデータセットで評価された。 F1スコアは77.3%となり、10%以上改善された。幻覚レポートベースファインチューニングでは,従来のコードベースファインチューニングに比べて検出率が20%向上した。さらに、HALURUStは未確認の脆弱性やその他のプログラミング言語に効果的に適応し、強力な一般化能力を示した。

関連論文リスト

Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2025-03-05T15:22:24Z)
ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。 $textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。 $textitELBA-Bench$は1300以上の実験を提供する。
論文参考訳（メタデータ） (2025-02-22T12:55:28Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
To Err is Machine: Vulnerability Detection Challenges LLM Reasoning [8.602355712876815]
脆弱性検出という,困難なコード推論タスクを提示する。最新のSOTA(State-of-the-art)モデルでは,脆弱性検出評価では54.5%のバランスド精度しか報告されていない。脆弱性検出を克服するためには、新しいモデル、新しいトレーニング方法、あるいはもっと実行固有の事前トレーニングデータが必要になるかもしれない。
論文参考訳（メタデータ） (2024-03-25T21:47:36Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
How Far Have We Gone in Vulnerability Detection Using Large Language Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-21T08:20:39Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。