論文の概要: STraceBERT: Source Code Retrieval using Semantic Application Traces
- arxiv url: http://arxiv.org/abs/2312.04731v1
- Date: Thu, 7 Dec 2023 22:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:45:30.573036
- Title: STraceBERT: Source Code Retrieval using Semantic Application Traces
- Title(参考訳): STraceBERT:セマンティックアプリケーショントレースを用いたソースコード検索
- Authors: Claudio Spiess
- Abstract要約: STraceBERTは、Javaの動的解析ツールを使用してコアJavaライブラリへの呼び出しを記録する新しいアプローチである。
本実験は,既存のアプローチと比較してソースコードの検索におけるSTraceBERTの有効性を実証するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Software reverse engineering is an essential task in software engineering and
security, but it can be a challenging process, especially for adversarial
artifacts. To address this challenge, we present STraceBERT, a novel approach
that utilizes a Java dynamic analysis tool to record calls to core Java
libraries, and pretrain a BERT-style model on the recorded application traces
for effective method source code retrieval from a candidate set. Our
experiments demonstrate the effectiveness of STraceBERT in retrieving the
source code compared to existing approaches. Our proposed approach offers a
promising solution to the problem of code retrieval in software reverse
engineering and opens up new avenues for further research in this area.
- Abstract(参考訳): ソフトウェアリバースエンジニアリングは、ソフトウェアエンジニアリングとセキュリティにおいて不可欠なタスクですが、特に敵のアーティファクトにとって、難しいプロセスです。
この課題に対処するために、Javaの動的解析ツールを利用した新しいアプローチSTraceBERTを提案する。これは、コアJavaライブラリへの呼び出しを記録し、記録されたアプリケーショントレース上でBERTスタイルのモデルを事前訓練し、候補セットから有効なメソッドソースコードを検索する。
本実験は,既存のアプローチと比較してソースコードの検索におけるSTraceBERTの有効性を示す。
提案手法は,ソフトウェアリバースエンジニアリングにおけるコード検索問題に対する有望な解決策を提供し,さらなる研究のための新たな道を開く。
関連論文リスト
- Finding Software Vulnerabilities in Open-Source C Projects via Bounded
Model Checking [2.9129603096077332]
我々は,汎用ソフトウェアシステムの脆弱性を効果的に検出できる境界モデル検査手法を提唱する。
我々は,最先端の有界モデルチェッカーを用いて,大規模ソフトウェアシステムを検証する手法を開発し,評価した。
論文 参考訳(メタデータ) (2023-11-09T11:25:24Z) - Using Machine Learning To Identify Software Weaknesses From Software
Requirement Specifications [49.1574468325115]
本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。
ProMISE_exp. Naive Bayes、サポートベクターマシン(SVM)、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)アルゴリズムをテストした。
論文 参考訳(メタデータ) (2023-08-10T13:19:10Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - A Smart and Defensive Human-Machine Approach to Code Analysis [0.0]
本稿では,仮想アシスタントを用いてプログラマと協調して,ソフトウェアが可能な限り安全であることを保証する手法を提案する。
プロポーズ方式では、様々なメトリクスを使って、プログラマがプロジェクトに適したコード分析ツールを選択するのを助けるレコメンデータシステムを採用している。
論文 参考訳(メタデータ) (2021-08-06T20:42:07Z) - Code2Image: Intelligent Code Analysis by Computer Vision Techniques and
Application to Vulnerability Prediction [0.6091702876917281]
本稿では,意味的および構文的性質を維持しつつ,ソースコードを画像として表現する新しい手法を提案する。
この手法により,ソースコードのイメージ表現を直接入力として深層学習(DL)アルゴリズムに入力することができる。
脆弱性予測ユースケースをパブリックデータセット上で実現することで,本手法の実現可能性と有効性を示す。
論文 参考訳(メタデータ) (2021-05-07T09:10:20Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Controlled time series generation for automotive software-in-the-loop
testing using GANs [0.5352699766206808]
オートマチックメカトロニクスシステムのテストは、部分的にはソフトウェア・イン・ザ・ループ・アプローチを使用し、システム・アンダー・テストのインプットを体系的にカバーすることが大きな課題である。
ひとつのアプローチは、テストプロセスの制御とフィードバックを容易にする入力シーケンスを作成することだが、現実的なシナリオにシステムを公開できない。
もうひとつは、現実を説明できるフィールド操作から記録されたシーケンスを再生するが、広く使われるには十分なキャパシティの十分なラベル付きデータセットを収集する必要があるため、コストがかかる。
この研究は、GAN(Generative Adrial Networks)のよく知られた教師なし学習フレームワークを適用して、記録された車内データのラベルなしデータセットを学習する。
論文 参考訳(メタデータ) (2020-02-16T16:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。