論文の概要: A Survey of Source Code Representations for Machine Learning-Based Cybersecurity Tasks
- arxiv url: http://arxiv.org/abs/2403.10646v1
- Date: Fri, 15 Mar 2024 19:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:34:14.718071
- Title: A Survey of Source Code Representations for Machine Learning-Based Cybersecurity Tasks
- Title(参考訳): 機械学習によるサイバーセキュリティタスクのソースコード表現に関する調査
- Authors: Beatrice Casey, Joanna C. S. Santos, George Perry,
- Abstract要約: グラフベースの表現は最も人気のある表現カテゴリである。
Tokenizers と Abstract Syntax Trees (AST) は、全体として最も一般的な2つの表現である。
最も一般的なサイバーセキュリティタスクは脆弱性検出である。
- 参考スコア(独自算出の注目度): 0.561214184671173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning techniques for cybersecurity-related software engineering tasks are becoming increasingly popular. The representation of source code is a key portion of the technique that can impact the way the model is able to learn the features of the source code. With an increasing number of these techniques being developed, it is valuable to see the current state of the field to better understand what exists and what's not there yet. This paper presents a study of these existing ML-based approaches and demonstrates what type of representations were used for different cybersecurity tasks and programming languages. Additionally, we study what types of models are used with different representations. We have found that graph-based representations are the most popular category of representation, and Tokenizers and Abstract Syntax Trees (ASTs) are the two most popular representations overall. We also found that the most popular cybersecurity task is vulnerability detection, and the language that is covered by the most techniques is C. Finally, we found that sequence-based models are the most popular category of models, and Support Vector Machines (SVMs) are the most popular model overall.
- Abstract(参考訳): サイバーセキュリティ関連のソフトウェアエンジニアリングタスクのための機械学習技術は、ますます人気が高まっている。
ソースコードの表現は、モデルがソースコードの特徴を学習する方法に影響を与える技術の重要な部分です。
これらの技術が開発されつつある中で、何が存在しているのか、何がまだ存在しないのかをよりよく理解するために、この分野の現状を見ることは価値がある。
本稿では、これらの既存のMLベースのアプローチについて研究し、異なるサイバーセキュリティタスクやプログラミング言語にどのような表現が使われたかを示す。
さらに,表現の異なるモデルの種類についても検討する。
グラフベースの表現が表現の最も一般的なカテゴリであり、Tokenizers と Abstract Syntax Trees (ASTs) が全体として最も人気のある2つの表現であることがわかった。
また、最も一般的なサイバーセキュリティタスクは脆弱性検出であり、最も多くのテクニックでカバーされている言語はCであることもわかりました。最後に、シーケンスベースのモデルはモデルの最も人気のあるカテゴリであり、サポートベクタマシン(SVM)は全体として最も人気のあるモデルであることが分かりました。
関連論文リスト
- EUREKHA: Enhancing User Representation for Key Hackers Identification in Underground Forums [1.5192294544599656]
地下フォーラムはサイバー犯罪活動のハブとして機能し、匿名性とオンライン監視の回避のためのスペースを提供している。
これらのオペレーションの背後にある重要な機関を特定することは不可欠だが、依然として複雑な課題である。
本稿では、各ユーザをテキストシーケンスとしてモデル化することで、これらの鍵ハッカーを識別するEUREKHAという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-08T11:09:45Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - Ecosystem of Large Language Models for Code [7.7454423388704745]
本稿では,コードモデルエコシステムの先駆的分析を紹介する。
まず、人気があり影響力のあるデータセット、モデル、コントリビュータを特定します。
最も人気のある3つの再利用タイプは、微調整、アーキテクチャ共有、量子化である。
論文 参考訳(メタデータ) (2024-05-27T01:31:30Z) - Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - A Shapelet-based Framework for Unsupervised Multivariate Time Series Representation Learning [29.511632089649552]
時系列固有のシェープレットに基づく表現を学習し,多変量時系列のための新しいURLフレームワークを提案する。
我々の知る限りでは、これは、教師なし汎用表現学習におけるシェープレットベースの埋め込みを探求する最初の研究である。
統一型シェープレットベースのエンコーダと,マルチグレードコントラストとマルチスケールアライメントを備えた新しい学習目標が,目的達成のために特に設計されている。
論文 参考訳(メタデータ) (2023-05-30T09:31:57Z) - Retrieval-Enhanced Machine Learning [110.5237983180089]
本稿では,いくつかの既存モデルを含む汎用的な検索強化機械学習フレームワークについて述べる。
REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。
REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。
論文 参考訳(メタデータ) (2022-05-02T21:42:45Z) - Multimodal Representation Learning With Text and Images [2.998895355715139]
本研究は,テキストと画像データの同時表現学習において,マルチモーダルAIと行列分解技術を活用する。
学習表現は下流の分類と回帰タスクを用いて評価される。
論文 参考訳(メタデータ) (2022-04-30T03:25:01Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。