論文の概要: ILION: Deterministic Pre-Execution Safety Gates for Agentic AI Systems
- arxiv url: http://arxiv.org/abs/2603.13247v1
- Date: Sun, 22 Feb 2026 12:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.227431
- Title: ILION: Deterministic Pre-Execution Safety Gates for Agentic AI Systems
- Title(参考訳): ILION:エージェントAIシステムのための決定論的プレ実行安全ゲート
- Authors: Florin Adrian Chitan,
- Abstract要約: 我々はエージェントAIシステムのための決定論的実行ゲートであるILIONを提案する。
ILIONは、統計的トレーニングやAPI依存なしに、提案されたエージェントアクションをBLOCKまたはALLOWに分類する。
ILIONは4.3F1ポイントを上回り、2000倍高速に動作し、偽陽性率を4倍下げている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The proliferation of autonomous AI agents capable of executing real-world actions - filesystem operations, API calls, database modifications, financial transactions - introduces a class of safety risk not addressed by existing content-moderation infrastructure. Current text-safety systems evaluate linguistic content for harm categories such as violence, hate speech, and sexual content; they are architecturally unsuitable for evaluating whether a proposed action falls within an agent's authorized operational scope. We present ILION (Intelligent Logic Identity Operations Network), a deterministic execution gate for agentic AI systems. ILION employs a five-component cascade architecture - Transient Identity Imprint (TII), Semantic Vector Reference Frame (SVRF), Identity Drift Control (IDC), Identity Resonance Score (IRS) and Consensus Veto Layer (CVL) - to classify proposed agent actions as BLOCK or ALLOW without statistical training or API dependencies. The system requires zero labeled data, operates in sub-millisecond latency, and produces fully interpretable verdicts. We evaluate ILION on ILION-Bench v2, a purpose-built benchmark of 380 test scenarios across eight attack categories with 39% hard-difficulty adversarial cases and a held-out development split. ILION achieves F1 = 0.8515, precision = 91.0%, and a false positive rate of 7.9% at a mean latency of 143 microseconds. Comparative evaluation against three baselines - Lakera Guard (F1 = 0.8087), OpenAI Moderation API (F1 = 0.1188), and Llama Guard 3 (F1 = 0.0105) - demonstrates that existing text-safety infrastructure systematically fails on agent execution safety tasks due to a fundamental task mismatch. ILION outperforms the best commercial baseline by 4.3 F1 points while operating 2,000 times faster with a false positive rate four times lower.
- Abstract(参考訳): ファイルシステム操作、API呼び出し、データベースの変更、金融トランザクションなど、現実のアクションを実行することができる自律AIエージェントの急増は、既存のコンテンツモデレーションインフラストラクチャで対処されていない、一連の安全リスクを導入している。
現行のテキストセーフティシステムは、暴力、ヘイトスピーチ、性的内容などの有害なカテゴリーの言語的内容を評価する。
本稿ではエージェントAIシステムのための決定論的実行ゲートであるILION(Intelligent Logic Identity Operations Network)を提案する。
ILIONは5つのコンポーネントからなるカスケードアーキテクチャ(Transient Identity Imprint (TII)、Semantic Vector Reference Frame (SVRF)、Identity Drift Control (IDC)、Identity Resonance Score (IRS)、Consensus Veto Layer (CVL))を採用している。
このシステムはラベル付きデータをゼロにし、ミリ秒以下のレイテンシで動作し、完全に解釈可能な検証を生成する。
ILION on ILION-Bench v2は8つの攻撃カテゴリにまたがる380のテストシナリオを目的に構築したベンチマークであり,39%のハードディフルト対逆ケースとホールドアウト開発スプリットを用いて評価した。
ILIONはF1 = 0.8515、精度 = 91.0%、偽陽性率は平均143マイクロ秒で7.9%に達する。
Lakera Guard (F1 = 0.8087), OpenAI Moderation API (F1 = 0.1188), Llama Guard 3 (F1 = 0.0105) の3つのベースラインに対する比較評価は,既存のテキストセーフティインフラストラクチャが,基本的なタスクミスマッチによるエージェント実行安全タスクを体系的に失敗することを示した。
ILIONは4.3F1ポイントを上回り、2000倍高速に動作し、偽陽性率を4倍下げている。
関連論文リスト
- Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review [6.417595678110472]
ソフトウェアサプライチェーン攻撃において,確認バイアスがLSMベースの脆弱性検出に影響を及ぼすか,また,この障害モードを悪用できるかを検討する。
調査1では,5つのフレーミング条件下で4つの最先端モデルに対して評価された250個のCVE脆弱性/パッチペアに対する制御実験により,確認バイアスを定量化する。
調査2は、既知の脆弱性を再導入する敵のプルリクエストを模倣して、セキュリティの改善やプルリクエストメタデータによる緊急機能修正を実施可能であることを評価する。
論文 参考訳(メタデータ) (2026-03-19T10:40:27Z) - $α^3$-SecBench: A Large-Scale Evaluation Suite of Security, Resilience, and Trust for LLM-based UAV Agents over 6G Networks [3.099103925863002]
LLMをベースとしたUAVエージェントのセキュリティ意識の自律性を評価するための,初の大規模評価スイートであるSecBenchを,現実的な対人干渉下で導入する。
我々は、175の脅威タイプにまたがる113,475のミッションのコーパスからサンプリングされた何千もの敵意的に強化されたUAVエピソードを使用して、大手産業プロバイダやAI研究所から23の最先端のLSMを評価した。正規化された総合スコアは12.9%から57.1%の範囲で、異常検出とセキュリティに配慮した自律的な意思決定の間に大きなギャップがあることを強調している。
論文 参考訳(メタデータ) (2026-01-26T18:25:07Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Quantifying Return on Security Controls in LLM Systems [0.0]
本稿では、残留リスクを定量化するための意思決定指向フレームワークを提案する。
敵のプローブの結果を金融リスク推定と戻り制御の指標に変換する。
論文 参考訳(メタデータ) (2025-12-17T04:58:09Z) - SeBERTis: A Framework for Producing Classifiers of Security-Related Issue Reports [8.545800179148442]
SEBERTISは、Deep Neural Networks(DNN)を語彙的キューに依存しない分類器として訓練するフレームワークである。
当社のフレームワークは,1万件のGitHubイシューレポートをキュレートしたコーパスのセキュリティ関連問題を検出する上で,0.9880のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-12-17T01:23:11Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。