Fugu-MT 論文翻訳(概要): Closing the Gap: A User Study on the Real-world Usefulness of AI-powered Vulnerability Detection & Repair in the IDE

論文の概要: Closing the Gap: A User Study on the Real-world Usefulness of AI-powered Vulnerability Detection & Repair in the IDE

arxiv url: http://arxiv.org/abs/2412.14306v1
Date: Wed, 18 Dec 2024 20:19:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.881665
Title: Closing the Gap: A User Study on the Real-world Usefulness of AI-powered Vulnerability Detection & Repair in the IDE
Title（参考訳）: ギャップの閉鎖: IDEにおけるAIによる脆弱性検出と修復の現実的有用性に関するユーザスタディ
Authors: Benjamin Steenhoek, Kalpathy Sivaraman, Renata Saldivar Gonzalez, Yevhen Mohylevskyy, Roshanak Zilouchian Moghaddam, Wei Le,
Abstract要約: プロのソフトウェア開発者が所有する実際のプロジェクトで、脆弱性検出と修正ツールを実装しています。 DeepVulGuardは脆弱性のコードをスキャンし、修正を提案し、警告と修正の自然言語説明を提供し、チャットインターフェースを活用する。最先端のAIによる検出と修正ツールは、将来性を示しているが、偽陽性や適用不可能な修正の頻度が高いため、現実世界での使用には実用的ではない。
参考スコア（独自算出の注目度）: 5.824774194964031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents the first empirical study of a vulnerability detection and fix tool with professional software developers on real projects that they own. We implemented DeepVulGuard, an IDE-integrated tool based on state-of-the-art detection and fix models, and show that it has promising performance on benchmarks of historic vulnerability data. DeepVulGuard scans code for vulnerabilities (including identifying the vulnerability type and vulnerable region of code), suggests fixes, provides natural-language explanations for alerts and fixes, leveraging chat interfaces. We recruited 17 professional software developers at Microsoft, observed their usage of the tool on their code, and conducted interviews to assess the tool's usefulness, speed, trust, relevance, and workflow integration. We also gathered detailed qualitative feedback on users' perceptions and their desired features. Study participants scanned a total of 24 projects, 6.9k files, and over 1.7 million lines of source code, and generated 170 alerts and 50 fix suggestions. We find that although state-of-the-art AI-powered detection and fix tools show promise, they are not yet practical for real-world use due to a high rate of false positives and non-applicable fixes. User feedback reveals several actionable pain points, ranging from incomplete context to lack of customization for the user's codebase. Additionally, we explore how AI features, including confidence scores, explanations, and chat interaction, can apply to vulnerability detection and fixing. Based on these insights, we offer practical recommendations for evaluating and deploying AI detection and fix models. Our code and data are available at https://doi.org/10.6084/m9.figshare.26367139.
Abstract（参考訳）: 本稿では、プロのソフトウェア開発者が所有する実際のプロジェクトで脆弱性の検出と修正を行うツールについて、初めて実証的研究を行った。私たちはDeepVulGuardという,最先端の検出と修正モデルに基づくIDE統合ツールを実装しました。 DeepVulGuardは脆弱性(脆弱性タイプと脆弱性のあるコードの領域の特定を含む)のコードをスキャンし、修正を提案し、警告と修正のための自然言語の説明を提供し、チャットインターフェースを活用する。私たちはMicrosoftで17人のプロのソフトウェア開発者を雇い、ツールをコードで使用していることを観察し、ツールの有用性、スピード、信頼性、妥当性、ワークフロー統合を評価するためにインタビューを行った。また、ユーザの認識と望ましい機能について、詳細な質的なフィードバックを収集しました。参加者は24のプロジェクト、6.9kファイル、170万行以上のソースコードをスキャンし、170のアラートと50の修正提案を作成した。最先端のAIによる検出と修正ツールは、将来性を示しているが、偽陽性や適用不可能な修正の頻度が高いため、現実世界での使用には実用的ではない。ユーザからのフィードバックは、不完全なコンテキストからユーザのコードベースのカスタマイズの欠如まで、いくつかの実行可能な問題点を明らかにしている。さらに、信頼性スコア、説明、チャットインタラクションを含むAI機能が、脆弱性の検出と修正にどのように適用できるかについても検討する。これらの知見に基づいて、AI検出と修正モデルの評価とデプロイのための実践的なレコメンデーションを提供する。私たちのコードとデータはhttps://doi.org/10.6084/m9.figshare.26367139で公開されています。

関連論文リスト

Weakly Supervised Vulnerability Localization via Multiple Instance Learning [46.980136742826836]
WeAkly によるマルチプルインスタンス学習による脆弱性ローカライゼーションのための WAVES という新しい手法を提案する。 WAVESは、ある関数が脆弱かどうか(すなわち脆弱性検出)を判定し、脆弱なステートメントをピンポイントする機能を持っている。提案手法は,文レベルの脆弱性ローカライゼーションにおいて,脆弱性検出と最先端のパフォーマンスにおいて同等のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-09-14T15:11:39Z)
VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities [41.85494398578654]
VulnRepairEvalは、関数型Proof-of-Conceptエクスプロイトに固定された評価フレームワークである。我々のフレームワークは、再現可能な微分評価を可能にする包括的でコンテナ化された評価パイプラインを提供する。
論文参考訳（メタデータ） (2025-09-03T14:06:10Z)
CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文参考訳（メタデータ） (2025-08-28T06:03:11Z)
What Challenges Do Developers Face When Using Verification-Aware Programming Languages? [45.44831696628473]
ソフトウェア開発では、ソフトウェア信頼性の増大はテストを伴うことが多い。複雑でクリティカルなシステムでは、開発者はDesign by Contract(DbC)メソッドを使って、ソフトウェアコンポーネントが満たさなければならない正確な仕様を定義することができます。 VA(Verification-Aware)プログラミング言語は、DbCとコンパイル時または実行時の形式的検証をサポートし、従来のテストよりも正確性を保証する。
論文参考訳（メタデータ） (2025-06-30T10:17:39Z)
CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文参考訳（メタデータ） (2025-06-03T07:35:14Z)
Prompting LLMs for Code Editing: Struggles and Remedies [39.02507244469977]
大規模言語モデル(LLM)は、コーディングアシスタントをIDEに組み込むことで、ソフトウェアエンジニアリングを急速に変化させています。本稿では,LLMを利用したコード編集および変換機能であるTransform Codeと,Googleで広く使用されているIDEの開発者インタラクションに関するマルチフェーズ調査を通じて,このギャップの一部に対処する。機能使用状況のテレメトリログを分析し、頻繁な再プロンプトがTransform Codeを使用する開発者の苦労の指標であることを明らかにする。我々は、周囲のコードコンテキストから欠落した情報を推測してプロンプトを自動改善するツールAutoPrompterを提案し、評価し、27%の改善を実現した。
論文参考訳（メタデータ） (2025-04-28T18:59:28Z)
CommitShield: Tracking Vulnerability Introduction and Fix in Version Control Systems [15.037460085046806]
CommitShieldは、コードコミットの脆弱性を検出するツールである。静的解析ツールのコード解析機能と、大きな言語モデルの自然言語とコード理解機能を組み合わせる。脆弱性修正検出タスクの最先端メソッドに対して,CommitShieldはリコールを76%～87%改善することを示す。
論文参考訳（メタデータ） (2025-01-07T08:52:55Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
Static Application Security Testing (SAST) Tools for Smart Contracts: How Far Are We? [14.974832502863526]
近年,スマートコントラクトセキュリティの重要性が高まっている。この問題に対処するため、スマートコントラクトの脆弱性を検出するために、多数の静的アプリケーションセキュリティテスト(SAST)ツールが提案されている。本稿では,スマートコントラクトに対する45種類の脆弱性を含む,最新のきめ細かな分類法を提案する。
論文参考訳（メタデータ） (2024-04-28T13:40:18Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
The Vulnerability Is in the Details: Locating Fine-grained Information of Vulnerable Code Identified by Graph-based Detectors [33.395068754566935]
VULEXPLAINERは、粗いレベルの脆弱なコードスニペットから脆弱性クリティカルなコード行を見つけるためのツールである。 C/C++の一般的な8つの脆弱性に対して、90%の精度で脆弱性をトリガするコードステートメントにフラグを付けることができる。
論文参考訳（メタデータ） (2024-01-05T10:15:04Z)
REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes [40.401211102969356]
本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
論文参考訳（メタデータ） (2023-09-15T02:50:08Z)
AIBugHunter: A Practical Tool for Predicting, Classifying and Repairing Software Vulnerabilities [27.891905729536372]
AIBugHunterは、C/C++言語用のMLベースのソフトウェア脆弱性分析ツールで、Visual Studio Codeに統合されている。本稿では,新たな多目的最適化(MOO)に基づく脆弱性分類手法と,AIBugHunterが脆弱性タイプを正確に識別し,重症度を推定するためのトランスフォーマーに基づく評価手法を提案する。
論文参考訳（メタデータ） (2023-05-26T04:21:53Z)
Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文参考訳（メタデータ） (2023-02-14T18:43:34Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Early Detection of Security-Relevant Bug Reports using Machine Learning: How Far Are We? [6.438136820117887]
典型的なメンテナンスシナリオでは、セキュリティ関連バグレポートは、修正パッチを作成する際に開発チームによって優先される。オープンなセキュリティ関連バグレポートは、攻撃者がゼロデイ攻撃を実行するために活用できる機密情報の重大な漏洩になる可能性がある。近年,機械学習に基づくセキュリティ関連バグレポートの検出手法が,有望な性能で報告されている。
論文参考訳（メタデータ） (2021-12-19T11:30:29Z)
Automated Mapping of Vulnerability Advisories onto their Fix Commits in Open Source Repositories [7.629717457706326]
実践経験と機械学習(ML)を組み合わせたアプローチを提案する。アドバイザリから脆弱性に関する鍵情報を含むアドバイザリレコードを抽出する。影響を受けるプロジェクトのソースコードリポジトリから、候補となる修正コミットのサブセットを取得する。
論文参考訳（メタデータ） (2021-03-24T17:50:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。