Fugu-MT 論文翻訳(概要): STraceBERT: Source Code Retrieval using Semantic Application Traces

論文の概要: STraceBERT: Source Code Retrieval using Semantic Application Traces

arxiv url: http://arxiv.org/abs/2312.04731v1
Date: Thu, 7 Dec 2023 22:19:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 16:45:30.573036
Title: STraceBERT: Source Code Retrieval using Semantic Application Traces
Title（参考訳）: STraceBERT:セマンティックアプリケーショントレースを用いたソースコード検索
Authors: Claudio Spiess
Abstract要約: STraceBERTは、Javaの動的解析ツールを使用してコアJavaライブラリへの呼び出しを記録する新しいアプローチである。本実験は,既存のアプローチと比較してソースコードの検索におけるSTraceBERTの有効性を実証するものである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Software reverse engineering is an essential task in software engineering and security, but it can be a challenging process, especially for adversarial artifacts. To address this challenge, we present STraceBERT, a novel approach that utilizes a Java dynamic analysis tool to record calls to core Java libraries, and pretrain a BERT-style model on the recorded application traces for effective method source code retrieval from a candidate set. Our experiments demonstrate the effectiveness of STraceBERT in retrieving the source code compared to existing approaches. Our proposed approach offers a promising solution to the problem of code retrieval in software reverse engineering and opens up new avenues for further research in this area.
Abstract（参考訳）: ソフトウェアリバースエンジニアリングは、ソフトウェアエンジニアリングとセキュリティにおいて不可欠なタスクですが、特に敵のアーティファクトにとって、難しいプロセスです。この課題に対処するために、Javaの動的解析ツールを利用した新しいアプローチSTraceBERTを提案する。これは、コアJavaライブラリへの呼び出しを記録し、記録されたアプリケーショントレース上でBERTスタイルのモデルを事前訓練し、候補セットから有効なメソッドソースコードを検索する。本実験は,既存のアプローチと比較してソースコードの検索におけるSTraceBERTの有効性を示す。提案手法は,ソフトウェアリバースエンジニアリングにおけるコード検索問題に対する有望な解決策を提供し,さらなる研究のための新たな道を開く。

関連論文リスト

Hybrid Concolic Testing with Large Language Models for Guided Path Exploration [0.152292571922932]
強力なハイブリッドソフトウェアテスティングテクニックであるConcolic Testingは、歴史的に基本的な制限に悩まされてきた。本稿では,これらの課題を克服するために,Large Language Models (LLMs) と並列実行を統合した新しいアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-18T06:09:18Z)
Llama-based source code vulnerability detection: Prompt engineering vs Fine tuning [0.6588840794922407]
大規模言語モデル(LLM)は、これまでで最も高性能なAIモデルであると考えられている。それらの性能について検討し、その効果を高めるために様々な最先端技術を適用した。我々は最近のオープンソースのLlama-3.1 8Bを活用し、BigVulデータセットとPrimeVulデータセットからソースコードサンプルを抽出した。
論文参考訳（メタデータ） (2025-12-09T12:08:24Z)
Executable Knowledge Graphs for Replicating AI Research [65.41207324831583]
Executable Knowledge Graphs (xKG) は、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュラーでプラグイン可能な知識基盤である。コードはhttps://github.com/zjunlp/xKGでリリースされる。
論文参考訳（メタデータ） (2025-10-20T17:53:23Z)
AttnTrace: Attention-based Context Traceback for Long-Context LLMs [30.472252134918815]
本研究では,LLMがプロンプトのために生成した注目重みに基づく新しいコンテキストトレース手法であるAttnTraceを提案する。その結果、AttnTraceは既存の最先端のコンテキストトレース手法よりも正確で効率的であることがわかった。
論文参考訳（メタデータ） (2025-08-05T17:56:51Z)
Execution Guided Line-by-Line Code Generation [49.1574468325115]
本稿では,言語モデル生成プロセスにリアルタイム実行信号を組み込んだニューラルコード生成手法を提案する。提案手法であるExecutionGuidedFree Guidance (EGCFG) は,実行信号をモデルが生成するコードとして組み込む。
論文参考訳（メタデータ） (2025-06-12T17:50:05Z)
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging [3.3856216159724983]
我々は,新しいマルチエージェントコード生成フレームワークであるCodeSimを紹介する。人間が視覚シミュレーションを通じてアルゴリズムの理解を検証すると、CodeSimは一意に計画検証の手法を特徴付ける。我々のフレームワークは、新しい最先端の結果を達成する(HumanEval 95.1%、MBPP 90.7%、APPS 22%、CodeContests 29.1%)。
論文参考訳（メタデータ） (2025-02-08T18:43:59Z)
NLP-Based .NET CLR Event Logs Analyzer [0.0]
自然言語処理(NLP)アプローチにインスパイアされた新しい手法を用いて、.NET CLRイベントログを解析するツールを提案する。イベントログ用にカスタマイズされたトークン化プロセスを拡張したBERTベースのアーキテクチャを利用する。本実験は, イベントシーケンスの圧縮, 繰り返しパターンの検出, 異常の同定におけるアプローチの有効性を実証するものである。
論文参考訳（メタデータ） (2025-02-06T17:01:38Z)
Large Language Models as Realistic Microservice Trace Generators [54.85489678342595]
ワークロードトレースは、複雑なコンピュータシステムの振る舞いを理解し、処理とメモリリソースを管理するために不可欠である。本稿では,大規模言語モデルを用いて合成ワークロードトレースを生成する手法を提案する。我々のモデルは、キートレースの特徴を予測したり、欠落したデータを埋め込んだりといった、下流のトレース関連タスクに適応する。
論文参考訳（メタデータ） (2024-12-16T12:48:04Z)
DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文参考訳（メタデータ） (2024-08-25T07:10:36Z)
TraceMesh: Scalable and Streaming Sampling for Distributed Traces [51.08892669409318]
TraceMeshは、分散トレースのためのスケーラブルでストリーミングなサンプリングツールである。以前は見つからなかったトレース機能を、統一的で合理化された方法で扱える。 TraceMeshは、サンプリング精度と効率の両方において、最先端の手法よりも大幅に優れている。
論文参考訳（メタデータ） (2024-06-11T06:13:58Z)
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff [16.80314690163063]
大きな言語モデル(LLM)でソースコードを反復的に改善し、修復することは、1ショットで構築するには複雑すぎるプログラムを生成する一般的な方法として現れている。ここでは、リファインメントが探索と露見のトレードオフを露呈していることを示します。ほとんどのテストケースをパスするプログラムをリファイン化したり、考慮の少ないプログラムをリファインダでリファインダすることです。
論文参考訳（メタデータ） (2024-05-26T04:00:30Z)
Finding Software Vulnerabilities in Open-Source C Projects via Bounded Model Checking [2.9129603096077332]
我々は,汎用ソフトウェアシステムの脆弱性を効果的に検出できる境界モデル検査手法を提唱する。我々は,最先端の有界モデルチェッカーを用いて,大規模ソフトウェアシステムを検証する手法を開発し,評価した。
論文参考訳（メタデータ） (2023-11-09T11:25:24Z)
Using Machine Learning To Identify Software Weaknesses From Software Requirement Specifications [49.1574468325115]
本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。 ProMISE_exp. Naive Bayes、サポートベクターマシン(SVM)、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)アルゴリズムをテストした。
論文参考訳（メタデータ） (2023-08-10T13:19:10Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Constrained Reinforcement Learning for Robotics via Scenario-Based Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文参考訳（メタデータ） (2022-06-20T07:19:38Z)
A Smart and Defensive Human-Machine Approach to Code Analysis [0.0]
本稿では,仮想アシスタントを用いてプログラマと協調して,ソフトウェアが可能な限り安全であることを保証する手法を提案する。プロポーズ方式では、様々なメトリクスを使って、プログラマがプロジェクトに適したコード分析ツールを選択するのを助けるレコメンデータシステムを採用している。
論文参考訳（メタデータ） (2021-08-06T20:42:07Z)
Code2Image: Intelligent Code Analysis by Computer Vision Techniques and Application to Vulnerability Prediction [0.6091702876917281]
本稿では,意味的および構文的性質を維持しつつ,ソースコードを画像として表現する新しい手法を提案する。この手法により,ソースコードのイメージ表現を直接入力として深層学習(DL)アルゴリズムに入力することができる。脆弱性予測ユースケースをパブリックデータセット上で実現することで,本手法の実現可能性と有効性を示す。
論文参考訳（メタデータ） (2021-05-07T09:10:20Z)
TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文参考訳（メタデータ） (2021-04-16T17:55:28Z)
Controlled time series generation for automotive software-in-the-loop testing using GANs [0.5352699766206808]
オートマチックメカトロニクスシステムのテストは、部分的にはソフトウェア・イン・ザ・ループ・アプローチを使用し、システム・アンダー・テストのインプットを体系的にカバーすることが大きな課題である。ひとつのアプローチは、テストプロセスの制御とフィードバックを容易にする入力シーケンスを作成することだが、現実的なシナリオにシステムを公開できない。もうひとつは、現実を説明できるフィールド操作から記録されたシーケンスを再生するが、広く使われるには十分なキャパシティの十分なラベル付きデータセットを収集する必要があるため、コストがかかる。この研究は、GAN(Generative Adrial Networks)のよく知られた教師なし学習フレームワークを適用して、記録された車内データのラベルなしデータセットを学習する。
論文参考訳（メタデータ） (2020-02-16T16:19:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。