論文の概要: Feedback-Driven Execution for LLM-Based Binary Analysis
- arxiv url: http://arxiv.org/abs/2604.15136v1
- Date: Thu, 16 Apr 2026 15:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.977862
- Title: Feedback-Driven Execution for LLM-Based Binary Analysis
- Title(参考訳): LLMに基づくバイナリ解析のためのフィードバック駆動実行
- Authors: XiangRui Zhang, Qiang Li, Haining Wang,
- Abstract要約: 本稿では,LLMに基づく解析をフィードバック駆動実行プロセスとして再考するシステムFOGEを提案する。
FORGEは推論-動作-観測ループを介して推論とツール相互作用をインターリーブする。
実世界3,457のファームウェアバイナリ上でFOGEを評価した。
- 参考スコア(独自算出の注目度): 6.612857121548629
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Binary analysis increasingly relies on large language models (LLMs) to perform semantic reasoning over complex program behaviors. However, existing approaches largely adopt a one-pass execution paradigm, where reasoning operates over a fixed program representation constructed by static analysis tools. This formulation limits the ability to adapt exploration based on intermediate results and makes it difficult to sustain long-horizon, multi-path analysis under constrained context. We present FORGE, a system that rethinks LLM-based analysis as a feedback-driven execution process. FORGE interleaves reasoning and tool interaction through a reasoning-action-observation loop, enabling incremental exploration and evidence construction. To address the instability of long-horizon reasoning, we introduce a Dynamic Forest of Agents (FoA), a decomposed execution model that dynamically coordinates parallel exploration while bounding per-agent context. We evaluate FORGE on 3,457 real-world firmware binaries. FORGE identifies 1,274 vulnerabilities across 591 unique binaries, achieving 72.3% precision while covering a broader range of vulnerability types than prior approaches. These results demonstrate that structuring LLM-based analysis as a decomposed, feedback-driven execution system enables both scalable reasoning and high-quality outcomes in long-horizon tasks.
- Abstract(参考訳): バイナリ解析は、複雑なプログラムの振る舞いに対して意味論的推論を行うために、大規模言語モデル(LLM)に依存している。
しかし、既存のアプローチでは、静的解析ツールによって構築された固定されたプログラム表現上で推論が動作するワンパス実行パラダイムが広く採用されている。
この定式化は、中間結果に基づいて探索を適応する能力を制限し、制約された文脈下での長距離多経路解析の維持を困難にする。
本稿では,LLMに基づく解析をフィードバック駆動実行プロセスとして再考するシステムFOGEを提案する。
FORGEは推論-動作-観測ループを通じて推論とツールの相互作用をインターリーブし、漸進的な探索と証拠構築を可能にする。
長距離推論の不安定性に対処するため,エージェントの動的フォレスト(FoA)を導入し,エージェントごとのコンテキスト境界を保ちながら並列探索を動的に調整する実行モデルを提案する。
実世界3,457のファームウェアバイナリ上でFOGEを評価した。
FORGEは、591のユニークなバイナリにわたる1,274の脆弱性を特定し、72.3%の精度を達成し、以前のアプローチよりも幅広い種類の脆弱性をカバーしている。
これらの結果から,LLM解析を分解したフィードバック駆動型実行システムとして構築することで,長期タスクにおけるスケーラブルな推論と高品質な結果の両立が可能になることが示唆された。
関連論文リスト
- PRISM: A Dual View of LLM Reasoning through Semantic Flow and Latent Computation [15.91920027845529]
PRISM(Probabilistic Reasoning Inspection through Semantic and Implicit Modeling)は、両方のレベルを共同で分析するためのフレームワークおよび診断ツールである。
これは、推論過程における系統的なパターンを明らかにし、失敗した軌道は非生産的な検証ループに閉じ込められる傾向にあることを示した。
PRISMは、最終タスクの精度にのみ依存するのではなく、これらの振る舞いを観測し分析可能にする。
論文 参考訳(メタデータ) (2026-03-24T03:31:53Z) - Implicit Patterns in LLM-Based Binary Analysis [6.612857121548629]
我々は,マルチパスLSM推論が,構造化されたトークンレベルの暗黙的パターンを生じさせることを示す,最初の大規模トレースレベル研究を示す。
本研究は,LLM駆動のバイナリ解析の体系的特徴と,より信頼性の高い解析システムの基礎を提供する。
論文 参考訳(メタデータ) (2026-03-19T16:56:56Z) - Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents [68.85365034738534]
本稿では,衛星画像,自然言語クエリ,詳細な推論トレースに基づいて学習したツール拡張された地理空間エージェントを開発するための統一的なフレームワークを提案する。
トレーニングパイプラインは、構造化推論軌道上の教師付き微調整に依存し、モデルを検証された多段階ツールの相互作用と整合させる。
付随コーパスは、14,538のトレーニングと1,169の評価インスタンスから構成され、トレーニングスプリットでは100K以上の推論ステップ、評価スプリットでは7K以上の推論ステップがある。
論文 参考訳(メタデータ) (2026-02-19T18:59:54Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - AI Founding Fathers: A Case Study of GIS Search in Multi-Agent Pipelines [0.0]
大規模言語モデル(LLMs)は例外的な流行を示すが、それらからより強力な推論能力を引き出す努力は続けられている。
本稿では,LLM推論と最適化の体系的枠組みを推し進める。
論文 参考訳(メタデータ) (2025-11-12T05:52:55Z) - Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution [48.7788770680643]
Flash-Searcherは、新しい並列エージェント推論フレームワークである。
複雑なタスクを明示的な依存関係でサブタスクに分解し、独立した推論パスの同時実行を可能にする。
BrowseCompでは67.7%の精度で、xbench-DeepSearchでは83%、エージェントの実行手順は現在のフレームワークに比べて最大35%削減されている。
論文 参考訳(メタデータ) (2025-09-29T17:39:30Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Semantic-Enhanced Indirect Call Analysis with Large Language Models [14.517268546437917]
本稿では,間接的呼分析の有効性を高めるためにセマンティック・エンハンスメント・アナリティクス(SEA)を提案する。
一般的なプログラミングのプラクティスでは、間接呼び出しは、しばしば呼び出されたターゲットとセマンティックな類似性を示す。
SEAは、複数の視点から間接呼び出しとターゲット関数の両方の自然言語要約を生成する。
論文 参考訳(メタデータ) (2024-08-08T10:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。