論文の概要: LLMs as Firmware Experts: A Runtime-Grown Tree-of-Agents Framework
- arxiv url: http://arxiv.org/abs/2511.18438v1
- Date: Sun, 23 Nov 2025 13:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.842457
- Title: LLMs as Firmware Experts: A Runtime-Grown Tree-of-Agents Framework
- Title(参考訳): ファームウェアエキスパートとしてのLLM - ランタイムグローのツリー・オブ・エージェントフレームワーク
- Authors: Xiangrui Zhang, Zeyu Chen, Haining Wang, Qiang Li,
- Abstract要約: FIRMHIVEは、大規模言語モデルが自律的なファームウェアセキュリティアナリストとして機能することを可能にするエージェントハイブである。
FIRMHIVEはより深く(約16倍の推論ステップ)、より広い(約2.3倍のファイル検査)クロスファイル探索を行い、ファームウェアごとに約5.6倍の警告を行う。
最先端(SOTA)セキュリティツールと比較して、FIRMHIVEは1.5倍の脆弱性(1,802件)を特定し、71%の精度を実現している。
- 参考スコア(独自算出の注目度): 14.355564025599412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) and their agent systems have recently demonstrated strong potential in automating code reasoning and vulnerability detection. However, when applied to large-scale firmware, their performance degrades due to the binary nature of firmware, complex dependency structures, and heterogeneous components. To address this challenge, this paper presents FIRMHIVE, a recursive agent hive that enables LLMs to act as autonomous firmware security analysts. FIRMHIVE introduces two key mechanisms: (1) transforming delegation into a per-agent, executable primitive and (2) constructing a runtime Tree of Agents (ToA) for decentralized coordination. We evaluate FIRMHIVE using real-world firmware images obtained from publicly available datasets, covering five representative security analysis tasks. Compared with existing LLM-agent baselines, FIRMHIVE performs deeper (about 16x more reasoning steps) and broader (about 2.3x more files inspected) cross-file exploration, resulting in about 5.6x more alerts per firmware. Compared to state-of-the-art (SOTA) security tools, FIRMHIVE identifies about 1.5x more vulnerabilities (1,802 total) and achieves 71% precision, representing significant improvements in both yield and fidelity.
- Abstract(参考訳): 大規模言語モデル(LLM)とそのエージェントシステムは、コード推論と脆弱性検出を自動化する強力な可能性を示している。
しかし、大規模ファームウェアに適用すると、ファームウェアのバイナリ性、複雑な依存性構造、異種成分により性能が低下する。
この課題に対処するために,LLMが自律的なファームウェアセキュリティアナリストとして機能するための再帰的エージェントハイブであるFIRMHIVEを提案する。
FIRMHIVEは、(1)デリゲートをエージェント毎に変換する、(2)エージェントのツリー(ToA)を構築する、という2つの主要なメカニズムを導入している。
FIRMHIVEは、公開データセットから得られた実世界のファームウェア画像を用いて評価され、5つの代表的なセキュリティ分析タスクをカバーする。
FIRMHIVE は既存の LLM-Adnt ベースラインと比較すると、より深く(推論ステップは16倍)、より広い範囲(約2.3倍のファイル検査)のクロスファイル探索を行い、ファームウェアごとに約5.6倍のアラートを発生させる。
最先端(SOTA)セキュリティツールと比較して、FIRMHIVEは1.5倍の脆弱性(合計1,802個)を特定し、71%の精度を達成し、収量と忠実性の両方において大幅な改善を示している。
関連論文リスト
- Breaking the Code: Security Assessment of AI Code Agents Through Systematic Jailbreaking Attacks [11.371490212283383]
コード対応の大規模言語モデル(LLM)エージェントはソフトウェア工学に組み込まれ、コードを読み、書き、実行することができる。
JAWS-BENCHは、3つのエスカレーションワークスペースにまたがるベンチマークであり、攻撃能力を反映している。
JAWS-0のプロンプトのみの条件下では、コードエージェントは平均して61%の攻撃を受けており、58%が有害、52%がパース、27%がエンドツーエンドで実行される。
論文 参考訳(メタデータ) (2025-10-01T18:38:20Z) - Binary Diff Summarization using Large Language Models [17.877160310535942]
大型言語モデル(LLM)は、従来のツールを拡張するためにバイナリ分析に適用されている。
LLMを用いた二項差分要約のための新しいフレームワークを提案する。
6つのオープンソースプロジェクトに3つの異なるマルウェアを注入することで、ソフトウェアサプライチェーンセキュリティベンチマークを作成します。
論文 参考訳(メタデータ) (2025-09-28T16:47:24Z) - SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios [17.276786247873613]
SecureAgentBenchは、セキュアなコード生成において、コードエージェントの機能を厳格に評価するために設計された105のコーディングタスクのベンチマークである。
その結果、(i)現在のエージェントがセキュアなコードを生成するのに苦労していることが示され、最高のパフォーマンスのエージェントであるDeepSeek-V3.1がサポートしているSWE-agentも15.2%の正安のソリューションしか達成していない。
論文 参考訳(メタデータ) (2025-09-26T09:18:57Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks [11.861657542626219]
SEC-benchは、大規模言語モデル(LLM)エージェントを評価するための、最初の完全に自動化されたベンチマークフレームワークである。
当社のフレームワークは,再現可能なアーティファクトを備えた高品質なソフトウェア脆弱性データセットを,インスタンス当たり0.87ドルで自動生成します。
最先端のLLMコードエージェントの包括的な評価では、大きなパフォーマンスギャップが明らかになっている。
論文 参考訳(メタデータ) (2025-06-13T13:54:30Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。