論文の概要: Can We Generate Shellcodes via Natural Language? An Empirical Study
- arxiv url: http://arxiv.org/abs/2202.03755v1
- Date: Tue, 8 Feb 2022 09:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 23:55:00.830115
- Title: Can We Generate Shellcodes via Natural Language? An Empirical Study
- Title(参考訳): シェルコードは自然言語で生成できるのか?
実証的研究
- Authors: Pietro Liguori, Erfan Al-Hossami, Domenico Cotroneo, Roberto Natella,
Bojan Cukic, Samira Shaikh
- Abstract要約: 本稿では,ニューラルネットワークを用いたシェルコードの自動生成手法を提案する。
Shellcode_IA32は、実際のLinux/x86シェルコードの3,200のアセンブリコードスニペットで構成されている。
我々は,NMTが自然言語からアセンブリコードスニペットを高い精度で生成できることを示し,多くの場合,誤りのないシェルコード全体を生成可能であることを示した。
- 参考スコア(独自算出の注目度): 4.82810058837951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Writing software exploits is an important practice for offensive security
analysts to investigate and prevent attacks. In particular, shellcodes are
especially time-consuming and a technical challenge, as they are written in
assembly language. In this work, we address the task of automatically
generating shellcodes, starting purely from descriptions in natural language,
by proposing an approach based on Neural Machine Translation (NMT). We then
present an empirical study using a novel dataset (Shellcode_IA32), which
consists of 3,200 assembly code snippets of real Linux/x86 shellcodes from
public databases, annotated using natural language. Moreover, we propose novel
metrics to evaluate the accuracy of NMT at generating shellcodes. The empirical
analysis shows that NMT can generate assembly code snippets from the natural
language with high accuracy and that in many cases can generate entire
shellcodes with no errors.
- Abstract(参考訳): ソフトウェアエクスプロイトを書くことは、攻撃的なセキュリティアナリストが攻撃を調査し予防する重要なプラクティスである。
特にシェルコードは、アセンブリ言語で記述されているため、特に時間がかかり、技術的な課題である。
本稿では,ニューラルマシン翻訳(nmt)に基づくアプローチを提案することで,自然言語による記述から始まったシェルコードを自動的に生成するタスクに対処する。
次に,公開データベースからの実Linux/x86シェルコードの3,200個のアセンブリコードスニペットからなる,新しいデータセット(Shellcode_IA32)を用いた実証的研究を行った。
また,シェルコード生成におけるNMTの精度を評価するための新しい指標を提案する。
実験分析の結果,nmtは自然言語から高い精度でアセンブリコードスニペットを生成することができ,多くの場合,エラーを伴わずにシェルコード全体を生成できることがわかった。
関連論文リスト
- Guess & Sketch: Language Model Guided Transpilation [61.24102712913847]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - Natural Language Embedded Programs for Hybrid Language Symbolic
Reasoning [86.92053166457116]
本研究では,数学・記号的推論,自然言語理解,後続の課題に対処するための統合フレームワークとして,自然言語組み込みプログラム(NLEP)を提案する。
我々のアプローチは,構造化知識の自然言語表現を含むデータ構造上の関数を定義する完全なPythonプログラムを生成するよう,言語モデルに促す。
Pythonインタープリタが生成されたコードを実行し、出力をプリントする。
論文 参考訳(メタデータ) (2023-09-19T17:54:21Z) - Prompting with Pseudo-Code Instructions [12.166296720125187]
我々は、分類、QA、生成言語タスクにまたがる132のタスクに対して、擬似コードプロンプトのデータセットを作成する。
これらのプロンプトと自然言語の対応を利用して, BLOOM と CodeGen の2つの LLM ファミリ上での性能について検討する。
実験の結果, 擬似符号命令を用いることで, 分類作業におけるF1得点の平均7~16ポイント, ROUGE-L得点の12~38%の増加(絶対値)が得られた。
論文 参考訳(メタデータ) (2023-05-19T16:25:01Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Beyond the C: Retargetable Decompilation using Neural Machine
Translation [5.734661402742406]
我々は,新しい言語に容易に再ターゲティング可能なプロトタイプ・デコンパイラを開発した。
トークン化やトレーニングデータ選択などのパラメータが逆コンパイルの品質に与える影響について検討する。
トレーニングデータ、トレーニングされた逆コンパイルモデル、そして将来の言語に依存しない逆コンパイルの研究を促進するためのコードをリリースします。
論文 参考訳(メタデータ) (2022-12-17T20:45:59Z) - Language Models of Code are Few-Shot Commonsense Learners [106.1531522893209]
自然言語入力が与えられた場合、目標はイベントや推論グラフなどのグラフを生成することだ。
既存のアプローチは、出力グラフをノードとエッジのフラットリストとしてシリアライズする。
コード生成タスクとして構造化コモンセンス推論タスクをフレーム化する場合、事前学習されたコードLMは自然言語のLMよりも構造化コモンセンス推論タスクの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-10-13T16:09:36Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - Synchromesh: Reliable code generation from pre-trained language models [38.15391794443022]
コード生成のための事前学習モデルの信頼性を大幅に向上するフレームワークであるSynchromeshを提案する。
まず、TST(Target similarity Tuning)を使用して、トレーニングバンクから、セマンティックなサンプル選択の新しい方法を使用して、数ショットのサンプルを検索する。
次に、Synchromeshはサンプルをトレーニング済みの言語モデルに供給し、対象言語の有効なプログラムセットに出力を制約する一般的なフレームワークであるConstrained Semantic Decoding (CSD)を使用してプログラムをサンプリングする。
論文 参考訳(メタデータ) (2022-01-26T22:57:44Z) - Shellcode_IA32: A Dataset for Automatic Shellcode Generation [2.609784101826762]
私たちは、ソフトウェア脆弱性の悪用にペイロードとして使用される小さなコード、すなわちシェルコードを自動的に生成するタスクに対処するための第一歩を踏み出します。
我々は,困難だが一般的なアセンブリ命令と自然言語記述からなる新しいデータセット(Shellcode_IA32)を組み立て,リリースする。
論文 参考訳(メタデータ) (2021-04-27T10:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。