Fugu-MT 論文翻訳(概要): Evaluation of ChatGPT Model for Vulnerability Detection

論文の概要: Evaluation of ChatGPT Model for Vulnerability Detection

arxiv url: http://arxiv.org/abs/2304.07232v1
Date: Wed, 12 Apr 2023 17:24:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-17 12:58:34.166079
Title: Evaluation of ChatGPT Model for Vulnerability Detection
Title（参考訳）: 脆弱性検出のためのChatGPTモデルの評価
Authors: Anton Cheshkov, Pavel Zadorozhny, Rodion Levichev
Abstract要約: コード中の脆弱性検出のためのChatGPTモデルとGPT-3モデルの性能評価を行った。 CWE脆弱性に対するバイナリとマルチラベルの分類タスクを用いて,実世界のデータセットを用いて評価を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this technical report, we evaluated the performance of the ChatGPT and GPT-3 models for the task of vulnerability detection in code. Our evaluation was conducted on our real-world dataset, using binary and multi-label classification tasks on CWE vulnerabilities. We decided to evaluate the model because it has shown good performance on other code-based tasks, such as solving programming challenges and understanding code at a high level. However, we found that the ChatGPT model performed no better than a dummy classifier for both binary and multi-label classification tasks for code vulnerability detection.
Abstract（参考訳）: 本稿では,コード中の脆弱性検出のためのChatGPTモデルとGPT-3モデルの性能評価を行った。 CWE脆弱性に対するバイナリおよびマルチラベル分類タスクを用いて実世界のデータセットを用いて評価を行った。私たちは、プログラミングの課題の解決やコードの理解など、他のコードベースのタスクで優れたパフォーマンスを示すため、モデルを評価することにしました。しかし、ChatGPTモデルは、コード脆弱性検出のためのバイナリとマルチラベルの分類タスクに対してダミー分類器より優れていることがわかった。

関連論文リスト

An Evaluation of LLMs for Detecting Harmful Computing Terms [6.387263468033964]
本研究では, モデルアーキテクチャが有害な言語検出に与える影響を, 専門用語のキュレートされたデータベースの評価により検討する。我々は、BERT-base-uncased、RoBERTa large-mnli、Gemini Flash 1.5および2.0、GPT-4、Claude AI Sonnet 3.5、T5-large、BART-large-mnliを含む、エンコーダ、デコーダ、エンコーダ-デコーダ言語モデルをテストした。その結果、デコーダモデル、特にGemini Flash 2.0とClaude AIは、微妙な文脈分析に優れており、BERTのようなエンコーダモデルは強力なパターン認識を示すが、分類の確実性に苦慮していることがわかった。
論文参考訳（メタデータ） (2025-03-12T12:36:45Z)
Structural damage detection via hierarchical damage information with volumetric assessment [3.1033928913175766]
検出後、検出された損傷のマニュアル評価に依存することが課題である。 Guided-DetNetは、GAM(Generative Attention Module)、階層的除去アルゴリズム(Hierarchical Elimination Algorithm)、VCVA(Volumetric Contour Visual Assessment)によって特徴付けられる。 Guided-DetNetは、トリプル分類タスクにおいて最もよく比較されたモデルよりも3%以下で、メトリクスの異なる二重検出タスクでは2%以下で優れていた。
論文参考訳（メタデータ） (2024-07-29T04:33:04Z)
M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。 CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文参考訳（メタデータ） (2024-06-10T00:05:49Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Assessing the Promise and Pitfalls of ChatGPT for Automated Code Generation [2.0400340435492272]
本稿では,著名な大規模言語モデルであるChatGPTのコード生成能力を総合的に評価する。 5つのカテゴリにまたがる131のコード生成プロンプトのデータセットをキュレートして、堅牢な分析を可能にした。コードソリューションはChatGPTと人間によってすべてのプロンプトで生成され、262のコードサンプルが得られた。
論文参考訳（メタデータ） (2023-11-05T12:56:40Z)
Text generation for dataset augmentation in security classification tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文参考訳（メタデータ） (2023-10-22T22:25:14Z)
Is ChatGPT a game changer for geocoding -- a benchmark for geocoding address parsing techniques [3.759936323189418]
実運用におけるジオコーディングシステムの実際の入力ログから抽出した人間の入力パターンに基づいて合成された低品質アドレス記述のベンチマークデータセットを提案する。このデータセットには21の異なる入力エラーとバリエーションがあり、アメリカ50州とワシントンD.C.の通りから一意に選択された239,000以上のアドレス記録が含まれている。アドレス成分抽出におけるGPT-3モデルの性能を,トランスフォーマーベースモデルとLSTMベースモデルとを比較して評価する。
論文参考訳（メタデータ） (2023-10-22T17:03:56Z)
ChatGPT for Vulnerability Detection, Classification, and Repair: How Far Are We? [24.61869093475626]
ChatGPTのような大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な進歩を見せた。ソフトウェア脆弱性のために設計された最先端言語モデルとChatGPTを比較した。 ChatGPTは限られたパフォーマンスを実現し、脆弱性コンテキストにおける他の言語モデルよりも大幅に遅れていることがわかった。
論文参考訳（メタデータ） (2023-10-15T12:01:35Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
VulBERTa: Simplified Source Code Pre-Training for Vulnerability Detection [1.256413718364189]
VulBERTaは、ソースコードのセキュリティ脆弱性を検出するためのディープラーニングアプローチである。当社のアプローチでは,オープンソースのC/C++プロジェクトの実世界のコードに対して,独自のトークン化パイプラインを備えたRoBERTaモデルを事前トレーニングする。複数のデータセットにまたがるバイナリおよびマルチクラス脆弱性検出タスクに対するアプローチを評価する。
論文参考訳（メタデータ） (2022-05-25T00:56:43Z)
Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and Supervised Learning Methods in Adversarial Environments [63.942632088208505]
現在の運用環境に固有ののは、敵対的機械学習の実践である。本研究では,教師なし学習とグラフに基づく異常検出の可能性を検討する。我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。
論文参考訳（メタデータ） (2021-05-14T10:05:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。