論文の概要: A Survey of Source Code Representations for Machine Learning-Based Cybersecurity Tasks
- arxiv url: http://arxiv.org/abs/2403.10646v2
- Date: Wed, 09 Apr 2025 15:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 02:47:49.442345
- Title: A Survey of Source Code Representations for Machine Learning-Based Cybersecurity Tasks
- Title(参考訳): 機械学習によるサイバーセキュリティタスクのソースコード表現に関する調査
- Authors: Beatrice Casey, Joanna C. S. Santos, George Perry,
- Abstract要約: この記事では、異なるサイバーセキュリティタスクやプログラミング言語にどのような表現が使われたかを示す。
グラフベースの表現が表現の最も一般的なカテゴリであり、トークン化子と抽象構文木(AST)が全体として最も人気のある表現であることがわかった。
最も一般的なサイバーセキュリティタスクは脆弱性検出であり、最もテクニックによってカバーされる言語はCです。
- 参考スコア(独自算出の注目度): 0.561214184671173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning techniques for cybersecurity-related software engineering tasks are becoming increasingly popular. The representation of source code is a key portion of the technique that can impact the way the model is able to learn the features of the source code. With an increasing number of these techniques being developed, it is valuable to see the current state of the field to better understand what exists and what is not there yet. This article presents a study of these existing machine learning based approaches and demonstrates what type of representations were used for different cybersecurity tasks and programming languages. Additionally, we study what types of models are used with different representations. We have found that graph-based representations are the most popular category of representation, and tokenizers and Abstract Syntax Trees (ASTs) are the two most popular representations overall (e.g., AST and tokenizers are the representations with the highest count of papers, whereas graph-based representations is the category with the highest count of papers). We also found that the most popular cybersecurity task is vulnerability detection, and the language that is covered by the most techniques is C. Finally, we found that sequence-based models are the most popular category of models, and Support Vector Machines are the most popular model overall.
- Abstract(参考訳): サイバーセキュリティ関連のソフトウェアエンジニアリングタスクのための機械学習技術は、ますます人気が高まっている。
ソースコードの表現は、モデルがソースコードの特徴を学習する方法に影響を与える技術の重要な部分です。
これらの技術が開発されつつある中で、今何が存在しているのか、何がまだ存在しないのかをよりよく理解するために、この分野の現状を見ることは価値がある。
本稿では、これらの既存の機械学習ベースのアプローチについて研究し、異なるサイバーセキュリティタスクやプログラミング言語にどのような表現が使われたかを示す。
さらに,表現の異なるモデルの種類についても検討する。
グラフベースの表現は表現の最も一般的なカテゴリであり、トークン化木と抽象構文木(AST)は全体として最も人気のある2つの表現である(例えば、ASTとトークン化木は論文の最大数の表現であるのに対して、グラフベースの表現は論文の最大数の表現である)。
また、最も一般的なサイバーセキュリティタスクは脆弱性検出であり、最も多くのテクニックでカバーされている言語はCであることもわかりました。最後に、シーケンスベースのモデルはモデルの最も人気のあるカテゴリであり、サポートベクタマシンは全体として最も人気のあるモデルであることが分かりました。
関連論文リスト
- EUREKHA: Enhancing User Representation for Key Hackers Identification in Underground Forums [1.5192294544599656]
地下フォーラムはサイバー犯罪活動のハブとして機能し、匿名性とオンライン監視の回避のためのスペースを提供している。
これらのオペレーションの背後にある重要な機関を特定することは不可欠だが、依然として複雑な課題である。
本稿では、各ユーザをテキストシーケンスとしてモデル化することで、これらの鍵ハッカーを識別するEUREKHAという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-08T11:09:45Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - Ecosystem of Large Language Models for Code [7.7454423388704745]
本稿では,コードモデルエコシステムの先駆的分析を紹介する。
まず、人気があり影響力のあるデータセット、モデル、コントリビュータを特定します。
最も人気のある3つの再利用タイプは、微調整、アーキテクチャ共有、量子化である。
論文 参考訳(メタデータ) (2024-05-27T01:31:30Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - Abstract Syntax Tree for Programming Language Understanding and
Representation: How Far Are We? [23.52632194060246]
プログラミング言語の理解と表現(コード表現学習)は、ソフトウェア工学において常にホットで挑戦的なタスクである。
抽象構文木(AST)は、ソースコードの構文情報を表現し、コード表現学習で広く使われている。
コードトークンシーケンス(略してToken)ベースのコード表現とASTベースのコード表現でトレーニングされた3種類のコード関連タスクのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2023-12-01T08:37:27Z) - Learning Type Inference for Enhanced Dataflow Analysis [6.999203506253375]
我々は、型アノテーションを確実に予測するように訓練されたTransformerベースのモデルであるCodeTIDAL5を提案する。
私たちのモデルは、MaryTypes4TypeScriptベンチマークで現在の最先端を7.85%上回っています。
JoernTIは、オープンソースの静的解析ツールであるJoernへの私たちのアプローチの統合です。
論文 参考訳(メタデータ) (2023-10-01T13:52:28Z) - A Shapelet-based Framework for Unsupervised Multivariate Time Series Representation Learning [29.511632089649552]
時系列固有のシェープレットに基づく表現を学習し,多変量時系列のための新しいURLフレームワークを提案する。
我々の知る限りでは、これは、教師なし汎用表現学習におけるシェープレットベースの埋め込みを探求する最初の研究である。
統一型シェープレットベースのエンコーダと,マルチグレードコントラストとマルチスケールアライメントを備えた新しい学習目標が,目的達成のために特に設計されている。
論文 参考訳(メタデータ) (2023-05-30T09:31:57Z) - Retrieval-Enhanced Machine Learning [110.5237983180089]
本稿では,いくつかの既存モデルを含む汎用的な検索強化機械学習フレームワークについて述べる。
REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。
REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。
論文 参考訳(メタデータ) (2022-05-02T21:42:45Z) - Multimodal Representation Learning With Text and Images [2.998895355715139]
本研究は,テキストと画像データの同時表現学習において,マルチモーダルAIと行列分解技術を活用する。
学習表現は下流の分類と回帰タスクを用いて評価される。
論文 参考訳(メタデータ) (2022-04-30T03:25:01Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。