論文の概要: Source Code Foundation Models are Transferable Binary Analysis Knowledge Bases
- arxiv url: http://arxiv.org/abs/2405.19581v1
- Date: Thu, 30 May 2024 00:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 18:46:29.798034
- Title: Source Code Foundation Models are Transferable Binary Analysis Knowledge Bases
- Title(参考訳): ソースコード基盤モデルは、転送可能なバイナリ分析知識ベースである
- Authors: Zian Su, Xiangzhe Xu, Ziyang Huang, Kaiyuan Zhang, Xiangyu Zhang,
- Abstract要約: 人間指向バイナリリバースエンジニアリング(Human-Oriented Binary Reverse Engineering)は、ソースコードに関連する可読性のあるコンテンツにバイナリコードを持ち上げることを目的としている。
本稿では,バイナリソースエンコーダデコーダモデルと,バイナリ解析のためのブラックボックスLCMを組み込んだ新しいプローブ・アンド・リカバリフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.422025563792818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-Oriented Binary Reverse Engineering (HOBRE) lies at the intersection of binary and source code, aiming to lift binary code to human-readable content relevant to source code, thereby bridging the binary-source semantic gap. Recent advancements in uni-modal code model pre-training, particularly in generative Source Code Foundation Models (SCFMs) and binary understanding models, have laid the groundwork for transfer learning applicable to HOBRE. However, existing approaches for HOBRE rely heavily on uni-modal models like SCFMs for supervised fine-tuning or general LLMs for prompting, resulting in sub-optimal performance. Inspired by recent progress in large multi-modal models, we propose that it is possible to harness the strengths of uni-modal code models from both sides to bridge the semantic gap effectively. In this paper, we introduce a novel probe-and-recover framework that incorporates a binary-source encoder-decoder model and black-box LLMs for binary analysis. Our approach leverages the pre-trained knowledge within SCFMs to synthesize relevant, symbol-rich code fragments as context. This additional context enables black-box LLMs to enhance recovery accuracy. We demonstrate significant improvements in zero-shot binary summarization and binary function name recovery, with a 10.3% relative gain in CHRF and a 16.7% relative gain in a GPT4-based metric for summarization, as well as a 6.7% and 7.4% absolute increase in token-level precision and recall for name recovery, respectively. These results highlight the effectiveness of our approach in automating and improving binary code analysis.
- Abstract(参考訳): Human-Oriented Binary Reverse Engineering (HOBRE) はバイナリとソースコードの交差点に位置し、バイナリコードをソースコードに関連するヒューマン可読コンテンツに引き上げることを目的としており、バイナリソースのセマンティックギャップを埋めることを目指している。
特に生成ソースコード基盤モデル(SCFM)とバイナリ理解モデルにおいて、一様コードモデル事前学習の最近の進歩は、HOBREに適用可能なトランスファー学習の基盤を築き上げている。
しかし、既存の HoOBRE のアプローチは、SCFM のような一様モデルに大きく依存しており、教師付き微調整や汎用 LLM をプロンプトに利用することで、サブ最適性能を実現している。
近年の大規模マルチモーダルモデルの進展に触発されて,両面からのユニモーダル符号モデルの強みを利用して,セマンティックギャップを効果的に橋渡しできることを提案する。
本稿では,バイナリソースエンコーダデコーダモデルとブラックボックスLLMを組み込んだ新しいプローブ・アンド・リカバリフレームワークを提案する。
提案手法では,SCFM内の事前学習した知識を利用して,関連性のある記号リッチコードフラグメントをコンテキストとして合成する。
この追加のコンテキストにより、ブラックボックスのLCMは回復精度を高めることができる。
ゼロショットのバイナリ・サマリゼーションとバイナリ関数名のリカバリでは,CHRFが10.3%,GPT4が16.7%,トークンレベルの精度が6.7%,名前のリカバリが7.4%向上した。
これらの結果は、バイナリコード解析の自動化と改善における我々のアプローチの有効性を強調します。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - Multi-Fidelity Residual Neural Processes for Scalable Surrogate Modeling [19.60087366873302]
マルチフィデリティ・サロゲートモデリングは,最も高いフィデリティレベルで正確なサロゲートを学習することを目的としている。
ディープラーニングアプローチでは、ニューラルネットワークベースのエンコーダとデコーダを使用してスケーラビリティを向上させる。
本稿では,MFRNP(Multi-fidelity Residual Neural Processs)を提案する。
論文 参考訳(メタデータ) (2024-02-29T04:40:25Z) - BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching [8.655595404611821]
BinaryAIは2フェーズのバイナリソースコードマッチングを備えた新しいバイナリ・ソースSCA技術で、構文的および意味的両方のコード特徴をキャプチャする。
実験の結果、バイナリソースコードマッチングと下流SCAタスクにおいて、BinaryAIの優れた性能を示しました。
論文 参考訳(メタデータ) (2024-01-20T07:57:57Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Encoding Binary Concepts in the Latent Space of Generative Models for
Enhancing Data Representation [12.013345715187285]
本稿では,バイナリ概念の学習を容易にし,自動エンコーダにおけるデータ生成の質を向上させるために,二項化正規化を提案する。
提案手法は,既存のモデルを改良して,より伝達可能な表現を学習し,入力分布を表すサンプルをより多く生成できることを実証する。
論文 参考訳(メタデータ) (2023-03-22T01:45:35Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Towards Accurate Binary Neural Networks via Modeling Contextual
Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。
本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文 参考訳(メタデータ) (2022-09-03T11:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。