Fugu-MT 論文翻訳(概要): Beyond C/C++: Probabilistic and LLM Methods for Next-Generation Software Reverse Engineering

論文の概要: Beyond C/C++: Probabilistic and LLM Methods for Next-Generation Software Reverse Engineering

arxiv url: http://arxiv.org/abs/2506.03504v1
Date: Wed, 04 Jun 2025 02:45:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.11254
Title: Beyond C/C++: Probabilistic and LLM Methods for Next-Generation Software Reverse Engineering
Title（参考訳）: C/C++を超えて - 次世代ソフトウェアリバースエンジニアリングのための確率的およびLLMメソッド
Authors: Zhuo Zhuo, Xiangyu Zhang,
Abstract要約: 我々は,2進解析と細調整された大言語モデル(LLM)を統合する新しい手法を提案する。本手法は,逆工学に固有の不確かさを体系的にモデル化し,不完全あるいは曖昧な情報に対するより正確な推論を可能にする。このハイブリッドアプローチは、リバースエンジニアリングの取り組みの堅牢性と正確性を高めるだけでなく、スケーラブルなソリューションも提供します。
参考スコア（独自算出の注目度）: 9.000183560156483
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This proposal discusses the growing challenges in reverse engineering modern software binaries, particularly those compiled from newer system programming languages such as Rust, Go, and Mojo. Traditional reverse engineering techniques, developed with a focus on C and C++, fall short when applied to these newer languages due to their reliance on outdated heuristics and failure to fully utilize the rich semantic information embedded in binary programs. These challenges are exacerbated by the limitations of current data-driven methods, which are susceptible to generating inaccurate results, commonly referred to as hallucinations. To overcome these limitations, we propose a novel approach that integrates probabilistic binary analysis with fine-tuned large language models (LLMs). Our method systematically models the uncertainties inherent in reverse engineering, enabling more accurate reasoning about incomplete or ambiguous information. By incorporating LLMs, we extend the analysis beyond traditional heuristics, allowing for more creative and context-aware inferences, particularly for binaries from diverse programming languages. This hybrid approach not only enhances the robustness and accuracy of reverse engineering efforts but also offers a scalable solution adaptable to the rapidly evolving landscape of software development.
Abstract（参考訳）: この提案では、現代のソフトウェアバイナリのリバースエンジニアリングにおける課題、特にRust、Go、Mojoといった新しいシステムプログラミング言語からコンパイルされた問題について論じている。 CとC++に焦点をあてて開発された従来のリバースエンジニアリング技術は、時代遅れのヒューリスティックとバイナリプログラムに埋め込まれたリッチなセマンティック情報を十分に活用できないために、これらの新しい言語に適用されると不足する。これらの課題は、現在のデータ駆動手法の限界によって悪化し、幻覚と呼ばれる不正確な結果を引き起こす可能性がある。これらの制約を克服するために,確率的バイナリ解析と細調整された大言語モデル(LLM)を統合する新しい手法を提案する。本手法は,逆工学に固有の不確かさを体系的にモデル化し,不完全あるいは曖昧な情報に対するより正確な推論を可能にする。 LLMを組み込むことで、従来のヒューリスティックスを超えて分析を拡張し、特に多様なプログラミング言語のバイナリに対して、より創造的でコンテキスト対応の推論を可能にします。このハイブリッドアプローチは、リバースエンジニアリングの取り組みの堅牢性と正確性を高めるだけでなく、急速に進化するソフトウェア開発のランドスケープに適応可能なスケーラブルなソリューションも提供します。

関連論文リスト

Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文参考訳（メタデータ） (2025-11-25T14:20:08Z)
Context-Guided Decompilation: A Step Towards Re-executability [50.71992919223209]
バイナリ逆コンパイルは、ソフトウェアセキュリティ分析、リバースエンジニアリング、マルウェア理解において重要な役割を果たす。大規模言語モデル (LLMs) の最近の進歩により、ニューラルデコンパイルが可能になったが、生成されたコードは一般的に意味論的にのみ使用可能である。 In-context Learning(ICL)を活用して,再実行可能なソースコードを生成するためのILC4Decompを提案する。
論文参考訳（メタデータ） (2025-11-03T17:21:39Z)
On Integrating Large Language Models and Scenario-Based Programming for Improving Software Reliability [2.2058293096044586]
大規模言語モデル(LLM)は、ソフトウェア開発者にとって急速に欠かせないツールになりつつある。 LLMは、しばしば重大なエラーを導入し、説得力のある信頼を持って間違ったコードを提示する。本研究では,LLMと従来のソフトウェア工学技術を組み合わせる手法を構造化された方法で提案する。
論文参考訳（メタデータ） (2025-09-11T07:10:25Z)
A Lightweight Multi-Expert Generative Language Model System for Engineering Information and Knowledge Extraction [2.8007688938043622]
Small Language Graph(SLG)は、上記の2つの重要な課題に対処するために設計された軽量適応ソリューションである。 SLGは、Exact Matchメトリックの従来の微調整手法を3倍に超えることができた。また、グラフアーキテクチャと専門家ノードの小さなサイズは、分散AIシステムにとって可能な機会を提供する。
論文参考訳（メタデータ） (2025-05-27T12:31:24Z)
Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文参考訳（メタデータ） (2025-04-17T17:49:40Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
SENAI: Towards Software Engineering Native Generative Artificial Intelligence [3.915435754274075]
本稿では,ソフトウェア工学の知識を大規模言語モデルに統合することについて議論する。本研究の目的は,LLMが単なる機能的精度を超えて生成タスクを実行できる新しい方向を提案することである。ソフトウェアエンジニアリングネイティブな生成モデルは、現在のモデルに存在する欠点を克服するだけでなく、現実世界のソフトウェアエンジニアリングを扱うことができる次世代の生成モデルへの道を開くでしょう。
論文参考訳（メタデータ） (2025-03-19T15:02:07Z)
The CodeInverter Suite: Control-Flow and Data-Mapping Augmented Binary Decompilation with LLMs [43.591384969171614]
バイナリ逆コンパイルを改善するためのCodeInverter Suiteを開発した。我々は、逆コンパイルを改善するために制御フローグラフと明示的なデータマッピングを使用します。我々のCIM-6.7Bは最先端の逆コンパイル性能を達成できる。
論文参考訳（メタデータ） (2025-03-10T11:52:48Z)
Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文参考訳（メタデータ） (2025-02-11T01:12:11Z)
Natural Language-Oriented Programming (NLOP): Towards Democratizing Software Creation [4.5318695190841884]
自然言語指向プログラミング(NLOP)は,本稿で紹介したビジョンである。開発者は自然言語でソフトウェア要件とロジックを明確に記述し、それによってソフトウェア作成を民主化することができる。本稿では、様々なプログラミングモデルについてレビューし、その貢献と限界を評価し、自然言語が新しいプログラミング言語であることを強調する。
論文参考訳（メタデータ） (2024-06-08T09:13:54Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。 CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。 Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文参考訳（メタデータ） (2023-09-25T15:42:18Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文参考訳（メタデータ） (2023-02-15T18:25:52Z)
IRJIT: A Simple, Online, Information Retrieval Approach for Just-In-Time Software Defect Prediction [10.084626547964389]
Just-in-Timeソフトウェア欠陥予測(JIT-SDP)は、コミットチェックイン時にそれらを特定することによって、ソフトウェアへの欠陥の導入を防止する。現在のソフトウェア欠陥予測アプローチは、変更メトリクスなどの手作業による機能に依存しており、マシンラーニングやディープラーニングモデルのトレーニングにコストがかかる。我々は,ソースコード上の情報検索を利用して,過去のバグやクリーンなコミットと類似性に基づいて,新しいコミットをバグやクリーンとしてラベル付けするIRJITという手法を提案する。
論文参考訳（メタデータ） (2022-10-05T17:54:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。