論文の概要: Cracking IoT Security: Can LLMs Outsmart Static Analysis Tools?
- arxiv url: http://arxiv.org/abs/2601.00559v1
- Date: Fri, 02 Jan 2026 04:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.515461
- Title: Cracking IoT Security: Can LLMs Outsmart Static Analysis Tools?
- Title(参考訳): IoTセキュリティの亀裂 - LLMは静的解析ツールより優れているか?
- Authors: Jason Quantrill, Noura Khajehnouri, Zihan Guo, Manar H. Alalfi,
- Abstract要約: 本研究は,多カテゴリー間相互作用脅威分類におけるLarge Language Models (LLMs) の総合評価を初めて行った。
Llama 3.1 8B, Llama 70B, GPT-4o, Gemini-2.5-Pro, DeepSeek-R1を0, 1, 2ショット設定でベンチマークする。
以上の結果から, LLMは有望な意味理解を示すが, 相互構造的推論を必要とする脅威に対して, 精度は著しく低下することがわかった。
- 参考スコア(独自算出の注目度): 1.8549313085249322
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Smart home IoT platforms such as openHAB rely on Trigger Action Condition (TAC) rules to automate device behavior, but the interplay among these rules can give rise to interaction threats, unintended or unsafe behaviors emerging from implicit dependencies, conflicting triggers, or overlapping conditions. Identifying these threats requires semantic understanding and structural reasoning that traditionally depend on symbolic, constraint-driven static analysis. This work presents the first comprehensive evaluation of Large Language Models (LLMs) across a multi-category interaction threat taxonomy, assessing their performance on both the original openHAB (oHC/IoTB) dataset and a structurally challenging Mutation dataset designed to test robustness under rule transformations. We benchmark Llama 3.1 8B, Llama 70B, GPT-4o, Gemini-2.5-Pro, and DeepSeek-R1 across zero-, one-, and two-shot settings, comparing their results against oHIT's manually validated ground truth. Our findings show that while LLMs exhibit promising semantic understanding, particularly on action- and condition-related threats, their accuracy degrades significantly for threats requiring cross-rule structural reasoning, especially under mutated rule forms. Model performance varies widely across threat categories and prompt settings, with no model providing consistent reliability. In contrast, the symbolic reasoning baseline maintains stable detection across both datasets, unaffected by rule rewrites or structural perturbations. These results underscore that LLMs alone are not yet dependable for safety critical interaction-threat detection in IoT environments. We discuss the implications for tool design and highlight the potential of hybrid architectures that combine symbolic analysis with LLM-based semantic interpretation to reduce false positives while maintaining structural rigor.
- Abstract(参考訳): OpenHABのようなスマートホームIoTプラットフォームは、デバイス動作を自動化するためのTrigger Action Condition(TAC)ルールに依存している。
これらの脅威を特定するには、伝統的に象徴的で制約駆動の静的解析に依存する意味的理解と構造的推論が必要である。
この研究は、多カテゴリの相互作用脅威分類におけるLLM(Large Language Models)の総合的な評価を初めて提示し、元のOpenHAB(oHC/IoTB)データセットと、ルール変換の下でロバスト性をテストするために設計された構造的に挑戦的なMutationデータセットの両方でそれらのパフォーマンスを評価する。
Llama 3.1 8B, Llama 70B, GPT-4o, Gemini-2.5-Pro, DeepSeek-R1を0, 1, 2ショット設定でベンチマークし, 結果とoHITが手作業で検証した地上事実を比較した。
以上の結果から,LSMは,特に行動および条件関連脅威に対して有望な意味理解を示すが,その正確性は,ルール間構造的推論を必要とする脅威に対して著しく低下することが明らかとなった。
モデルパフォーマンスは脅威カテゴリやプロンプト設定によって大きく異なり、一貫した信頼性を提供するモデルは存在しない。
対照的に、シンボリック推論ベースラインは、ルール書き換えや構造的摂動の影響を受けない、両方のデータセットにわたって安定した検出を維持している。
これらの結果は、LLMだけでは、IoT環境での安全クリティカルなインタラクション-脅威検出には、まだ信頼できないことを裏付けている。
ツール設計の意義を論じ,シンボル解析とLLMに基づく意味解釈を組み合わせたハイブリッドアーキテクチャの可能性を強調し,構造的厳密性を維持しながら偽陽性を減らす。
関連論文リスト
- MEEA: Mere Exposure Effect-Driven Confrontational Optimization for LLM Jailbreaking [10.331506725187038]
マルチターン安全性の信頼性を評価するための完全に自動化されたフレームワークであるMEEAを提案する。
MEEAはセマンティックプログレッシブなプロンプトチェーンを構築し、シミュレートされたアニール戦略を使ってそれらを最適化する。
その結果,MEEAは7つのベースラインよりも攻撃成功率が高いことがわかった。
論文 参考訳(メタデータ) (2025-12-21T14:43:26Z) - Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs [38.3239023969819]
大きな言語モデル(LLM)は多様なアプリケーションのための強力なツールとして登場した。
ツール・コンプリート・アタック(TCA)と呼ばれる新しい種類の脆弱性を特定し,提案する。
これらの脆弱性に対処するために、コンテキスト認識階層学習(CAHL)を導入します。
論文 参考訳(メタデータ) (2025-12-03T12:10:21Z) - Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness [9.013874391203453]
敵対的な例では、知覚不能な入力摂動に対する感度を利用して、ディープニューラルネットワークの重大な脆弱性を明らかにしている。
本研究では,群-同変畳み込みを組込み,対向ロバスト性に対するアーキテクチャ的アプローチについて検討する。
これらの層は、モデル行動と入力空間の構造化変換を整合させる対称性の先行を符号化し、よりスムーズな決定境界を促進する。
論文 参考訳(メタデータ) (2025-10-17T19:26:58Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。