論文の概要: Deep Learning-Based Out-of-distribution Source Code Data Identification: How Far We Have Gone?
- arxiv url: http://arxiv.org/abs/2404.05964v1
- Date: Tue, 9 Apr 2024 02:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 16:08:32.974398
- Title: Deep Learning-Based Out-of-distribution Source Code Data Identification: How Far We Have Gone?
- Title(参考訳): ディープラーニングに基づくアウト・オブ・ディストリビューション・ソース・コードの識別:どこまでで解けるか?
- Authors: Van Nguyen, Xingliang Yuan, Tingmin Wu, Surya Nepal, Marthie Grobler, Carsten Rudolph,
- Abstract要約: 我々は,OODソースコードデータ識別問題に対処する革新的なディープラーニングベースのアプローチを提案する。
本手法は,革新的なクラスタコントラスト学習を用いて情報理論的な視点から導出する。
提案手法は,FPR,AUROC,AUPRでそれぞれ約15.27%,7.39%,4.93%の成績を示した。
- 参考スコア(独自算出の注目度): 23.962076093344166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software vulnerabilities (SVs) have become a common, serious, and crucial concern to safety-critical security systems. That leads to significant progress in the use of AI-based methods for software vulnerability detection (SVD). In practice, although AI-based methods have been achieving promising performances in SVD and other domain applications (e.g., computer vision), they are well-known to fail in detecting the ground-truth label of input data (referred to as out-of-distribution, OOD, data) lying far away from the training data distribution (i.e., in-distribution, ID). This drawback leads to serious issues where the models fail to indicate when they are likely mistaken. To address this problem, OOD detectors (i.e., determining whether an input is ID or OOD) have been applied before feeding the input data to the downstream AI-based modules. While OOD detection has been widely designed for computer vision and medical diagnosis applications, automated AI-based techniques for OOD source code data detection have not yet been well-studied and explored. To this end, in this paper, we propose an innovative deep learning-based approach addressing the OOD source code data identification problem. Our method is derived from an information-theoretic perspective with the use of innovative cluster-contrastive learning to effectively learn and leverage source code characteristics, enhancing data representation learning for solving the problem. The rigorous and comprehensive experiments on real-world source code datasets show the effectiveness and advancement of our approach compared to state-of-the-art baselines by a wide margin. In short, on average, our method achieves a significantly higher performance from around 15.27%, 7.39%, and 4.93% on the FPR, AUROC, and AUPR measures, respectively, in comparison with the baselines.
- Abstract(参考訳): ソフトウェア脆弱性(SV)は、安全クリティカルなセキュリティシステムに対して、一般的で深刻で決定的な関心事となっている。
これにより、ソフトウェア脆弱性検出(SVD)のためのAIベースのメソッドの使用が大幅に進歩する。
実際には、AIベースの手法はSVDや他のドメインアプリケーション(例えばコンピュータビジョン)で有望なパフォーマンスを実現してきたが、トレーニングデータ分布(例えば、インディストリビューション、ID)から遠く離れた入力データ(オフ・オブ・ディストリビューション、OOD、データと呼ばれる)の地味なラベルを検出することに失敗することはよく知られている。
この欠点は、モデルが過ちを犯している可能性を示すのに失敗する深刻な問題につながります。
この問題に対処するために、下流AIベースのモジュールに入力データを送る前にOOD検出器(すなわち、入力がIDかOODであるかを決定する)が適用されている。
OOD検出はコンピュータビジョンと医療診断の応用のために広く設計されているが、OODソースコードデータ検出のためのAIベースの自動技術はまだ十分に研究されていない。
そこで本稿では,OODソースコードデータ識別問題に対処する革新的な深層学習手法を提案する。
提案手法は,ソースコードの特徴を効果的に学習し,活用するために,革新的なクラスタコントラスト学習を用いて情報理論的な視点から導出される。
実世界のソースコードデータセットに関する厳密で包括的な実験は、最先端のベースラインに比べて、我々のアプローチの有効性と進歩を示している。
要するに,本手法は,FPR,AUROC,AUPRの約15.27%,7.39%,および4.93%に対して,ベースラインと比較して有意に高い性能を示した。
関連論文リスト
- What If the Input is Expanded in OOD Detection? [77.37433624869857]
Out-of-distriion (OOD) 検出は未知のクラスからのOOD入力を特定することを目的としている。
In-distriion(ID)データと区別するために,様々なスコアリング関数を提案する。
入力空間に異なる共通の汚職を用いるという、新しい視点を導入する。
論文 参考訳(メタデータ) (2024-10-24T06:47:28Z) - SAFE: Advancing Large Language Models in Leveraging Semantic and Syntactic Relationships for Software Vulnerability Detection [23.7268575752712]
ソフトウェア脆弱性(SV)は、安全クリティカルなセキュリティシステムにとって、一般的かつ重要な懸念事項として浮上している。
本稿では,SVDのソースコードデータから意味的・統語的関係を学習し,活用するための大規模言語モデルの能力を高める新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-02T00:49:02Z) - Gradient-Regularized Out-of-Distribution Detection [28.542499196417214]
現実のアプリケーションにおけるニューラルネットワークの課題の1つは、これらのモデルが元のトレーニングディストリビューションからデータが送られていないときに犯す過信エラーである。
本稿では,学習中の損失関数の勾配に埋め込まれた情報を活用して,ネットワークが各サンプルに対して所望のOODスコアを学習できるようにする方法を提案する。
また、トレーニング期間中に、より情報性の高いOODサンプルにネットワークを露出させるための、新しいエネルギーベースのサンプリング手法を開発した。
論文 参考訳(メタデータ) (2024-04-18T17:50:23Z) - How Does Unlabeled Data Provably Help Out-of-Distribution Detection? [63.41681272937562]
in-distribution (ID) とout-of-distribution (OOD) の両データの不均一性のため、未ラベルの in-the-wild データは非自明である。
本稿では,理論的保証と実証的有効性の両方を提供する新たな学習フレームワークであるSAL(Separate And Learn)を紹介する。
論文 参考訳(メタデータ) (2024-02-05T20:36:33Z) - EAT: Towards Long-Tailed Out-of-Distribution Detection [55.380390767978554]
本稿では,長い尾を持つOOD検出の課題に対処する。
主な困難は、尾クラスに属するサンプルとOODデータを区別することである。
本稿では,(1)複数の禁制クラスを導入して分布内クラス空間を拡大すること,(2)コンテキストリッチなOODデータに画像をオーバーレイすることでコンテキスト限定のテールクラスを拡大すること,の2つの簡単な考え方を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:47:13Z) - Out-of-distribution Detection Learning with Unreliable
Out-of-distribution Sources [73.28967478098107]
アウト・オブ・ディストリビューション(OOD)検出は、予測者が有効な予測を行うことができないOODデータをイン・ディストリビューション(ID)データとして識別する。
通常、OODパターンを識別できる予測器をトレーニングするために、実際のアウト・オブ・ディストリビューション(OOD)データを収集するのは困難である。
本稿では,Auxiliary Task-based OOD Learning (ATOL) というデータ生成に基づく学習手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:26:52Z) - Augmenting Softmax Information for Selective Classification with
Out-of-Distribution Data [7.221206118679026]
既存のポストホック法はOOD検出でのみ評価した場合とは大きく異なる性能を示す。
本稿では,特徴に依存しない情報を用いて,ソフトマックスに基づく信頼度を向上するSCOD(Softmax Information Retaining Combination, SIRC)の新たな手法を提案する。
多様なImageNetスケールのデータセットと畳み込みニューラルネットワークアーキテクチャの実験は、SIRCがSCODのベースラインを一貫して一致または上回っていることを示している。
論文 参考訳(メタデータ) (2022-07-15T14:39:57Z) - Igeood: An Information Geometry Approach to Out-of-Distribution
Detection [35.04325145919005]
Igeoodは, オフ・オブ・ディストリビューション(OOD)サンプルを効果的に検出する手法である。
Igeoodは任意のトレーニング済みニューラルネットワークに適用され、機械学習モデルにさまざまなアクセス権を持つ。
Igeoodは、さまざまなネットワークアーキテクチャやデータセットにおいて、競合する最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-15T11:26:35Z) - DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for
AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise
Annotations [90.27736364704108]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるTarmOODを提案する。
DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。
我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-24T12:32:48Z) - Detection of Insider Attacks in Distributed Projected Subgradient
Algorithms [11.096339082411882]
汎用ニューラルネットワークは悪質なエージェントの検出とローカライズに特に適していることを示す。
本稿では,連合学習における最先端のアプローチ,すなわち協調型ピアツーピア機械学習プロトコルを採用することを提案する。
シミュレーションでは,AIに基づく手法の有効性と有効性を検証するために,最小二乗問題を考える。
論文 参考訳(メタデータ) (2021-01-18T08:01:06Z) - Out-of-Distribution Detection for Automotive Perception [58.34808836642603]
ニューラルネットワーク(NN)は、自律運転におけるオブジェクト分類に広く使われている。
NNは、アウト・オブ・ディストリビューション(OOD)データとして知られるトレーニングデータセットで適切に表現されていない入力データでフェールすることができる。
本稿では,OODデータを必要としない入力がOODであるか否かを判定し,推論の計算コストを増大させる方法を提案する。
論文 参考訳(メタデータ) (2020-11-03T01:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。