論文の概要: ASTRA: Agentic Steerability and Risk Assessment Framework
- arxiv url: http://arxiv.org/abs/2511.18114v1
- Date: Sat, 22 Nov 2025 16:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.63446
- Title: ASTRA: Agentic Steerability and Risk Assessment Framework
- Title(参考訳): ASTRA:エージェントステアビリティとリスクアセスメントフレームワーク
- Authors: Itay Hazan, Yael Mathov, Guy Shtar, Ron Bitton, Itsik Mantin,
- Abstract要約: 大規模言語モデル(LLM)を活用したAIエージェントのセキュア化は、今日のAIセキュリティにおける最も重要な課題の1つだ。
ASTRA は LLM の有効性を評価するための第一種フレームワークである。
- 参考スコア(独自算出の注目度): 3.9756746779772834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Securing AI agents powered by Large Language Models (LLMs) represents one of the most critical challenges in AI security today. Unlike traditional software, AI agents leverage LLMs as their "brain" to autonomously perform actions via connected tools. This capability introduces significant risks that go far beyond those of harmful text presented in a chatbot that was the main application of LLMs. A compromised AI agent can deliberately abuse powerful tools to perform malicious actions, in many cases irreversible, and limited solely by the guardrails on the tools themselves and the LLM ability to enforce them. This paper presents ASTRA, a first-of-its-kind framework designed to evaluate the effectiveness of LLMs in supporting the creation of secure agents that enforce custom guardrails defined at the system-prompt level (e.g., "Do not send an email out of the company domain," or "Never extend the robotic arm in more than 2 meters"). Our holistic framework simulates 10 diverse autonomous agents varying between a coding assistant and a delivery drone equipped with 37 unique tools. We test these agents against a suite of novel attacks developed specifically for agentic threats, inspired by the OWASP Top 10 but adapted to challenge the ability of the LLM for policy enforcement during multi-turn planning and execution of strict tool activation. By evaluating 13 open-source, tool-calling LLMs, we uncovered surprising and significant differences in their ability to remain secure and keep operating within their boundaries. The purpose of this work is to provide the community with a robust and unified methodology to build and validate better LLMs, ultimately pushing for more secure and reliable agentic AI systems.
- Abstract(参考訳): LLM(Large Language Models)を利用したAIエージェントのセキュア化は、今日のAIセキュリティにおける最も重要な課題のひとつだ。
従来のソフトウェアとは異なり、AIエージェントはLLMを"脳"として活用し、コネクテッドツールを介して自律的にアクションを実行する。
この能力は、LLMのメインアプリケーションであるチャットボットで提示された有害なテキストを超える、重大なリスクをもたらす。
妥協されたAIエージェントは、強力なツールを意図的に悪用して悪意のあるアクションを実行することができ、多くの場合、ツール自体のガードレールとそれらを強制するLLM能力によってのみ制限される。
システム・プロンプトレベルで定義されたカスタムガードレールを強制する安全エージェント(例えば「会社ドメインから電子メールを送るな」や「ロボットアームを2メートル以上延長しない」など)の作成を支援する上で,LSMの有効性を評価するための第一種フレームワークであるASTRAを提案する。
我々の総合的なフレームワークは、コーディングアシスタントと37のユニークなツールを備えた配達ドローンの間に異なる10の多様な自律エージェントをシミュレートする。
我々は、OWASPトップ10に触発されたエージェント脅威に特化して開発された新しい攻撃に対して、これらのエージェントを試験するが、多ターン計画および厳格なツールアクティベーションの実行において、ポリシー執行にLLMの能力に挑戦するために適応する。
13のオープンソースツールコールLDMを評価して,セキュリティを維持し,バウンダリ内での運用を維持する能力において,驚くべき,重要な違いが明らかになった。
この研究の目的は、より良いLLMを構築し、検証するための堅牢で統一された方法論をコミュニティに提供することであり、最終的にはよりセキュアで信頼性の高いエージェントAIシステムを目指している。
関連論文リスト
- Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents [36.2255033141489]
大規模言語モデル(LLM)を利用したAIエージェントが大規模にデプロイされているが、バックボーンLLMの選択がエージェントのセキュリティに与える影響について、体系的な理解が欠如している。
脅威スナップショット: 脆弱性が現れるエージェントの実行フロー内の特定の状態を分離するフレームワーク。
194331のユニークなクラウドソース攻撃に基づくセキュリティベンチマークである$operatornameb3$ベンチマークを構築するために,このフレームワークを適用した。
論文 参考訳(メタデータ) (2025-10-26T10:36:42Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.0]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、従来のコンテンツ生成からシステムレベルの妥協まで及ぶセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLLMのセキュリティを総合的に評価する。
異なる攻撃面と信頼境界がどのように活用され、そのような乗っ取りを組織化できるかを示す。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Les Dissonances: Cross-Tool Harvesting and Polluting in Multi-Tool Empowered LLM Agents [15.15485816037418]
本稿では,マルチツール対応LLMエージェントにおけるタスク制御フローのシステマティックセキュリティ解析について述べる。
複数の攻撃ベクトルを含む新しい脅威であるクロスツールハーベスティングとポリッティング(XTHP)を同定する。
この脅威の影響を理解するために,我々は,XTHP攻撃を受けやすい現実世界のエージェントツールを自動的に検出する動的スキャンツールであるChordを開発した。
論文 参考訳(メタデータ) (2025-04-04T01:41:06Z) - UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning [17.448966928905733]
外部ツールを備えた大規模言語モデル(LLM)エージェントは、複雑なタスクに対してますます強力になっている。
UDoraはLDMエージェント用に設計された統一されたレッド・チーム・フレームワークで、エージェントの推論プロセスを動的にハイジャックし、悪意ある振る舞いを強制する。
論文 参考訳(メタデータ) (2025-02-28T21:30:28Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。