論文の概要: Can We Generate Shellcodes via Natural Language? An Empirical Study
- arxiv url: http://arxiv.org/abs/2202.03755v1
- Date: Tue, 8 Feb 2022 09:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 23:55:00.830115
- Title: Can We Generate Shellcodes via Natural Language? An Empirical Study
- Title(参考訳): シェルコードは自然言語で生成できるのか?
実証的研究
- Authors: Pietro Liguori, Erfan Al-Hossami, Domenico Cotroneo, Roberto Natella,
Bojan Cukic, Samira Shaikh
- Abstract要約: 本稿では,ニューラルネットワークを用いたシェルコードの自動生成手法を提案する。
Shellcode_IA32は、実際のLinux/x86シェルコードの3,200のアセンブリコードスニペットで構成されている。
我々は,NMTが自然言語からアセンブリコードスニペットを高い精度で生成できることを示し,多くの場合,誤りのないシェルコード全体を生成可能であることを示した。
- 参考スコア(独自算出の注目度): 4.82810058837951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Writing software exploits is an important practice for offensive security
analysts to investigate and prevent attacks. In particular, shellcodes are
especially time-consuming and a technical challenge, as they are written in
assembly language. In this work, we address the task of automatically
generating shellcodes, starting purely from descriptions in natural language,
by proposing an approach based on Neural Machine Translation (NMT). We then
present an empirical study using a novel dataset (Shellcode_IA32), which
consists of 3,200 assembly code snippets of real Linux/x86 shellcodes from
public databases, annotated using natural language. Moreover, we propose novel
metrics to evaluate the accuracy of NMT at generating shellcodes. The empirical
analysis shows that NMT can generate assembly code snippets from the natural
language with high accuracy and that in many cases can generate entire
shellcodes with no errors.
- Abstract(参考訳): ソフトウェアエクスプロイトを書くことは、攻撃的なセキュリティアナリストが攻撃を調査し予防する重要なプラクティスである。
特にシェルコードは、アセンブリ言語で記述されているため、特に時間がかかり、技術的な課題である。
本稿では,ニューラルマシン翻訳(nmt)に基づくアプローチを提案することで,自然言語による記述から始まったシェルコードを自動的に生成するタスクに対処する。
次に,公開データベースからの実Linux/x86シェルコードの3,200個のアセンブリコードスニペットからなる,新しいデータセット(Shellcode_IA32)を用いた実証的研究を行った。
また,シェルコード生成におけるNMTの精度を評価するための新しい指標を提案する。
実験分析の結果,nmtは自然言語から高い精度でアセンブリコードスニペットを生成することができ,多くの場合,エラーを伴わずにシェルコード全体を生成できることがわかった。
関連論文リスト
- NoviCode: Generating Programs from Natural Language Utterances by Novices [59.71218039095155]
初心者非プログラマによるAPIと自然言語記述を入力とする新しいNLプログラミングタスクであるNoviCodeを提示する。
我々は、NoviCodeがコード合成領域における挑戦的なタスクであることを示し、非技術的命令から複雑なコードを生成することは、現在のText-to-Codeパラダイムを超えている。
論文 参考訳(メタデータ) (2024-07-15T11:26:03Z) - Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。
UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - Synchromesh: Reliable code generation from pre-trained language models [38.15391794443022]
コード生成のための事前学習モデルの信頼性を大幅に向上するフレームワークであるSynchromeshを提案する。
まず、TST(Target similarity Tuning)を使用して、トレーニングバンクから、セマンティックなサンプル選択の新しい方法を使用して、数ショットのサンプルを検索する。
次に、Synchromeshはサンプルをトレーニング済みの言語モデルに供給し、対象言語の有効なプログラムセットに出力を制約する一般的なフレームワークであるConstrained Semantic Decoding (CSD)を使用してプログラムをサンプリングする。
論文 参考訳(メタデータ) (2022-01-26T22:57:44Z) - Shellcode_IA32: A Dataset for Automatic Shellcode Generation [2.609784101826762]
私たちは、ソフトウェア脆弱性の悪用にペイロードとして使用される小さなコード、すなわちシェルコードを自動的に生成するタスクに対処するための第一歩を踏み出します。
我々は,困難だが一般的なアセンブリ命令と自然言語記述からなる新しいデータセット(Shellcode_IA32)を組み立て,リリースする。
論文 参考訳(メタデータ) (2021-04-27T10:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。