Fugu-MT 論文翻訳(概要): FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs

論文の概要: FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs

arxiv url: http://arxiv.org/abs/2403.18403v2
Date: Tue, 12 Nov 2024 22:02:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.5855
Title: FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs
Title（参考訳）: FoC: LLMを用いたストラップ付きバイナリにおける暗号関数の抽出
Authors: Xiuwei Shang, Guoqiang Chen, Shaoyin Cheng, Yanming Zhang, Weiming Zhang, Nenghai Yu,
Abstract要約: 削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
参考スコア（独自算出の注目度）: 54.27040631527217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Analyzing the behavior of cryptographic functions in stripped binaries is a challenging but essential task. Cryptographic algorithms exhibit greater logical complexity compared to typical code, yet their analysis is unavoidable in areas such as virus analysis and legacy code inspection. Existing methods often rely on data or structural pattern matching, leading to suboptimal generalizability and suffering from manual work. In this paper, we propose a novel framework called FoC to Figure out the Cryptographic functions in stripped binaries. In FoC, we first build a binary large language model (FoC-BinLLM) to summarize the semantics of cryptographic functions in natural language. The prediction of FoC-BinLLM is insensitive to minor changes, such as vulnerability patches. To mitigate it, we further build a binary code similarity model (FoC-Sim) upon the FoC-BinLLM to create change-sensitive representations and use it to retrieve similar implementations of unknown cryptographic functions in a database. In addition, we construct a cryptographic binary dataset for evaluation and to facilitate further research in this domain. And an automated method is devised to create semantic labels for extensive binary functions. Evaluation results demonstrate that FoC-BinLLM outperforms ChatGPT by 14.61% on the ROUGE-L score. FoC-Sim outperforms the previous best methods with a 52% higher Recall@1. Furthermore, our method also shows practical ability in virus analysis and 1-day vulnerability detection.
Abstract（参考訳）: 取り除かれたバイナリにおける暗号関数の振る舞いを分析することは、難しいが必須の課題である。暗号アルゴリズムは一般的なコードに比べて論理的な複雑さが大きいが、ウイルス分析やレガシーコード検査のような分野では避けられない。既存の手法は、しばしばデータや構造パターンのマッチングに頼り、最適下限の一般化可能性や手作業に悩まされる。本稿では,FoC(FoC to Figure out the Cryptographic function in stripped binaries)という新しいフレームワークを提案する。 FoCでは、自然言語における暗号関数のセマンティクスを要約するために、まずバイナリ大言語モデル(FoC-BinLLM)を構築した。 FoC-BinLLMの予測は、脆弱性パッチのようなマイナーな変更には敏感である。さらに、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。さらに、評価のための暗号バイナリデータセットを構築し、この領域におけるさらなる研究を容易にする。また、広範囲なバイナリ関数のためのセマンティックラベルを作成するために、自動手法が考案されている。 FoC-BinLLMはROUGE-LスコアでChatGPTを14.61%上回った。 FoC-Simは52%高いRecall@1で過去のベストメソッドを上回っている。さらに,ウイルス解析と1日間の脆弱性検出の実用性を示した。

関連論文リスト

Disa: Accurate Learning-based Static Disassembly with Attentions [19.40730097748233]
Disaは、マルチヘッド自己アテンション上のスーパーセット命令の情報を使用して、命令の相関関係を学習する、新しい学習ベースの分解アプローチである。 Disaは、関数のエントリポイント識別において、事前のディープラーニングの分解アプローチより優れている。
論文参考訳（メタデータ） (2025-07-09T19:36:57Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
ORCAS: Obfuscation-Resilient Binary Code Similarity Analysis using Dominance Enhanced Semantic Graph [11.990392428275179]
我々は,支配強化セマンティックグラフ(DESG)に基づく難易度回復型BCSAモデルであるORCASを開発する。 DESGは元のバイナリコード表現であり、制御フロー構造なしで多くのバイナリの暗黙的なセマンティクスをキャプチャする。 ORCASは、この新しくリリースされた現実世界の脆弱性データセットに対する最先端のアプローチを最大43%のリコール改善で上回っている。
論文参考訳（メタデータ） (2025-06-06T15:26:53Z)
Beyond the Edge of Function: Unraveling the Patterns of Type Recovery in Binary Code [55.493408628371235]
本稿では,バイナリコードの変数型を復元するフレームワークByteTRを提案する。 ByteTRは、関数間の変数伝搬の普遍性を考慮して、変数伝搬をトレースするためのプロシーダ間解析を行い、ゲートグラフニューラルネットワークを用いて、変数型回復のための長距離データフロー依存性をキャプチャする。
論文参考訳（メタデータ） (2025-03-10T12:27:05Z)
Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets [8.977790462534152]
本稿では,コードの構造に合わせた新しいラインレベルの検出とクリーン化手法であるDePAを提案する。 DePAは既存の方法よりも優れており、検出F1スコアが0.14-0.19向上し、有毒セグメントの局在精度が44-65%向上した。
論文参考訳（メタデータ） (2025-02-27T16:30:00Z)
ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文参考訳（メタデータ） (2025-02-17T12:38:57Z)
Cryptanalysis via Machine Learning Based Information Theoretic Metrics [58.96805474751668]
本稿では,機械学習アルゴリズムの新たな2つの応用法を提案する。これらのアルゴリズムは、監査設定で容易に適用でき、暗号システムの堅牢性を評価することができる。本稿では,DES,RSA,AES ECBなど,IND-CPAの安全でない暗号化スキームを高精度に識別する。
論文参考訳（メタデータ） (2025-01-25T04:53:36Z)
Enhancing Reverse Engineering: Investigating and Benchmarking Large Language Models for Vulnerability Analysis in Decompiled Binaries [2.696054049278301]
新しくコンパイルされたバイナリコード脆弱性データセットであるDeBinVulを紹介します。 DeBinVulを使って最先端のLLMを微調整し、バイナリコード脆弱性の検出においてパフォーマンスが19%、24%、21%向上したことを報告します。
論文参考訳（メタデータ） (2024-11-07T18:54:31Z)
Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。 IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-24T09:09:20Z)
MALSIGHT: Exploring Malicious Source Code and Benign Pseudocode for Iterative Binary Malware Summarization [13.199589436631776]
バイナリマルウェアの記述を生成できる新しいコード要約フレームワークMALSIGHTを提案する。具体的には,最初のマルウェア要約データセットであるMalSとMalPを構築した。トレーニング段階では、MalSと良質な擬似コードデータセットに基づいて、新しいLLMベースのコードモデルであるMalT5をチューニングします。テスト段階では、疑似コード関数をMalT5に繰り返し送り、要約を得る。
論文参考訳（メタデータ） (2024-06-26T14:21:09Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
CP-BCS: Binary Code Summarization Guided by Control Flow Graph and Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。 CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文参考訳（メタデータ） (2023-10-24T14:20:39Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文参考訳（メタデータ） (2022-10-28T14:04:57Z)
SimCLF: A Simple Contrastive Learning Framework for Function-level Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。 SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文参考訳（メタデータ） (2022-09-06T12:09:45Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
On using distributed representations of source code for the detection of C security vulnerabilities [14.8831988481175]
本稿では,C ソースコードの脆弱性検出作業において,コード表現モデル Code2vec の評価を行った。我々はオープンソースのライブラリAstminerを利用して、ラベル付きC関数のコーパスの抽象構文木からパスコンテキストを抽出する。 Code2vecは、関数を脆弱性または非脆弱性として分類するタスクで、結果のパスコンテキストに基づいてトレーニングされる。
論文参考訳（メタデータ） (2021-06-01T21:18:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。