論文の概要: Beyond C/C++: Probabilistic and LLM Methods for Next-Generation Software Reverse Engineering
- arxiv url: http://arxiv.org/abs/2506.03504v1
- Date: Wed, 04 Jun 2025 02:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.11254
- Title: Beyond C/C++: Probabilistic and LLM Methods for Next-Generation Software Reverse Engineering
- Title(参考訳): C/C++を超えて - 次世代ソフトウェアリバースエンジニアリングのための確率的およびLLMメソッド
- Authors: Zhuo Zhuo, Xiangyu Zhang,
- Abstract要約: 我々は,2進解析と細調整された大言語モデル(LLM)を統合する新しい手法を提案する。
本手法は,逆工学に固有の不確かさを体系的にモデル化し,不完全あるいは曖昧な情報に対するより正確な推論を可能にする。
このハイブリッドアプローチは、リバースエンジニアリングの取り組みの堅牢性と正確性を高めるだけでなく、スケーラブルなソリューションも提供します。
- 参考スコア(独自算出の注目度): 9.000183560156483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This proposal discusses the growing challenges in reverse engineering modern software binaries, particularly those compiled from newer system programming languages such as Rust, Go, and Mojo. Traditional reverse engineering techniques, developed with a focus on C and C++, fall short when applied to these newer languages due to their reliance on outdated heuristics and failure to fully utilize the rich semantic information embedded in binary programs. These challenges are exacerbated by the limitations of current data-driven methods, which are susceptible to generating inaccurate results, commonly referred to as hallucinations. To overcome these limitations, we propose a novel approach that integrates probabilistic binary analysis with fine-tuned large language models (LLMs). Our method systematically models the uncertainties inherent in reverse engineering, enabling more accurate reasoning about incomplete or ambiguous information. By incorporating LLMs, we extend the analysis beyond traditional heuristics, allowing for more creative and context-aware inferences, particularly for binaries from diverse programming languages. This hybrid approach not only enhances the robustness and accuracy of reverse engineering efforts but also offers a scalable solution adaptable to the rapidly evolving landscape of software development.
- Abstract(参考訳): この提案では、現代のソフトウェアバイナリのリバースエンジニアリングにおける課題、特にRust、Go、Mojoといった新しいシステムプログラミング言語からコンパイルされた問題について論じている。
CとC++に焦点をあてて開発された従来のリバースエンジニアリング技術は、時代遅れのヒューリスティックとバイナリプログラムに埋め込まれたリッチなセマンティック情報を十分に活用できないために、これらの新しい言語に適用されると不足する。
これらの課題は、現在のデータ駆動手法の限界によって悪化し、幻覚と呼ばれる不正確な結果を引き起こす可能性がある。
これらの制約を克服するために,確率的バイナリ解析と細調整された大言語モデル(LLM)を統合する新しい手法を提案する。
本手法は,逆工学に固有の不確かさを体系的にモデル化し,不完全あるいは曖昧な情報に対するより正確な推論を可能にする。
LLMを組み込むことで、従来のヒューリスティックスを超えて分析を拡張し、特に多様なプログラミング言語のバイナリに対して、より創造的でコンテキスト対応の推論を可能にします。
このハイブリッドアプローチは、リバースエンジニアリングの取り組みの堅牢性と正確性を高めるだけでなく、急速に進化するソフトウェア開発のランドスケープに適応可能なスケーラブルなソリューションも提供します。
関連論文リスト
- A Lightweight Multi-Expert Generative Language Model System for Engineering Information and Knowledge Extraction [2.8007688938043622]
Small Language Graph(SLG)は、上記の2つの重要な課題に対処するために設計された軽量適応ソリューションである。
SLGは、Exact Matchメトリックの従来の微調整手法を3倍に超えることができた。
また、グラフアーキテクチャと専門家ノードの小さなサイズは、分散AIシステムにとって可能な機会を提供する。
論文 参考訳(メタデータ) (2025-05-27T12:31:24Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - SENAI: Towards Software Engineering Native Generative Artificial Intelligence [3.915435754274075]
本稿では,ソフトウェア工学の知識を大規模言語モデルに統合することについて議論する。
本研究の目的は,LLMが単なる機能的精度を超えて生成タスクを実行できる新しい方向を提案することである。
ソフトウェアエンジニアリング ネイティブな生成モデルは、現在のモデルに存在する欠点を克服するだけでなく、現実世界のソフトウェアエンジニアリングを扱うことができる次世代の生成モデルへの道を開くでしょう。
論文 参考訳(メタデータ) (2025-03-19T15:02:07Z) - The CodeInverter Suite: Control-Flow and Data-Mapping Augmented Binary Decompilation with LLMs [43.591384969171614]
バイナリ逆コンパイルを改善するためのCodeInverter Suiteを開発した。
我々は、逆コンパイルを改善するために制御フローグラフと明示的なデータマッピングを使用します。
我々のCIM-6.7Bは最先端の逆コンパイル性能を達成できる。
論文 参考訳(メタデータ) (2025-03-10T11:52:48Z) - Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。
これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。
直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文 参考訳(メタデータ) (2025-02-11T01:12:11Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - IRJIT: A Simple, Online, Information Retrieval Approach for Just-In-Time Software Defect Prediction [10.084626547964389]
Just-in-Timeソフトウェア欠陥予測(JIT-SDP)は、コミットチェックイン時にそれらを特定することによって、ソフトウェアへの欠陥の導入を防止する。
現在のソフトウェア欠陥予測アプローチは、変更メトリクスなどの手作業による機能に依存しており、マシンラーニングやディープラーニングモデルのトレーニングにコストがかかる。
我々は,ソースコード上の情報検索を利用して,過去のバグやクリーンなコミットと類似性に基づいて,新しいコミットをバグやクリーンとしてラベル付けするIRJITという手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。