論文の概要: A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents
- arxiv url: http://arxiv.org/abs/2506.23844v1
- Date: Mon, 30 Jun 2025 13:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.080456
- Title: A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents
- Title(参考訳): 大規模モデルベースエージェントにおける自律神経障害のリスク調査
- Authors: Hang Su, Jun Luo, Chang Liu, Xiao Yang, Yichi Zhang, Yinpeng Dong, Jun Zhu,
- Abstract要約: 大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。
これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
- 参考スコア(独自算出の注目度): 45.53643260046778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have catalyzed the rise of autonomous AI agents capable of perceiving, reasoning, and acting in dynamic, open-ended environments. These large-model agents mark a paradigm shift from static inference systems to interactive, memory-augmented entities. While these capabilities significantly expand the functional scope of AI, they also introduce qualitatively novel security risks - such as memory poisoning, tool misuse, reward hacking, and emergent misalignment - that extend beyond the threat models of conventional systems or standalone LLMs. In this survey, we first examine the structural foundations and key capabilities that underpin increasing levels of agent autonomy, including long-term memory retention, modular tool use, recursive planning, and reflective reasoning. We then analyze the corresponding security vulnerabilities across the agent stack, identifying failure modes such as deferred decision hazards, irreversible tool chains, and deceptive behaviors arising from internal state drift or value misalignment. These risks are traced to architectural fragilities that emerge across perception, cognition, memory, and action modules. To address these challenges, we systematically review recent defense strategies deployed at different autonomy layers, including input sanitization, memory lifecycle control, constrained decision-making, structured tool invocation, and introspective reflection. We introduce the Reflective Risk-Aware Agent Architecture (R2A2), a unified cognitive framework grounded in Constrained Markov Decision Processes (CMDPs), which incorporates risk-aware world modeling, meta-policy adaptation, and joint reward-risk optimization to enable principled, proactive safety across the agent's decision-making loop.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、動的でオープンな環境での知覚、推論、行動が可能な自律型AIエージェントの台頭を触媒している。
これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
これらの機能はAIの機能範囲を大幅に広げる一方で、従来のシステムやスタンドアロンのLLMの脅威モデルを超えて広がる、メモリ中毒、ツール誤用、報酬のハッキング、創発的不正調整といった、定性的に新しいセキュリティリスクも導入している。
本稿では,長期記憶保持,モジュールツールの使用,再帰計画,リフレクティブ推論など,エージェントの自律性向上を支える構造基盤と重要な機能について検討する。
次に、エージェントスタック全体にわたる対応するセキュリティ脆弱性を分析し、遅延決定ハザード、不可逆ツールチェーン、および内部状態のドリフトや値の不一致に起因する偽りの動作などの障害モードを特定します。
これらのリスクは、認識、認知、記憶、行動モジュールにまたがって現れるアーキテクチャ上の曖昧さに遡る。
これらの課題に対処するために、入力衛生化、メモリライフサイクル制御、制約付き意思決定、構造化ツールの実行、イントロスペクティブリフレクションなど、さまざまな自律層に展開されている最近の防衛戦略を体系的にレビューする。
本稿では,リスク対応世界モデリング,メタ政治適応,共同報酬リスク最適化を取り入れた,制約付きマルコフ決定プロセス(CMDP)を基盤とした統合認知フレームワークであるReflectionive Risk-Aware Agent Architecture (R2A2)を紹介する。
関連論文リスト
- Automating Safety Enhancement for LLM-based Agents with Synthetic Risk Scenarios [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Safety Devolution in AI Agents [56.482973617087254]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索補助エージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索が強化され、ますます自律的なAIシステムにおいて、公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - Safety Alignment Can Be Not Superficial With Explicit Safety Signals [8.297367440457508]
大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。
既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。
安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
論文 参考訳(メタデータ) (2025-05-19T20:40:46Z) - DrunkAgent: Stealthy Memory Corruption in LLM-Powered Recommender Agents [28.294322726282896]
大規模言語モデル(LLM)を利用したエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(RS)でますます使われている。
本稿では,LSMを用いたリコメンデータエージェントにおけるメモリベースの脆弱性について,初めて体系的に検討する。
我々は,意味論的に意味のある敵の引き金を発生させる新しいブラックボックス攻撃フレームワークDrunkAgentを提案する。
論文 参考訳(メタデータ) (2025-03-31T07:35:40Z) - A Formal Framework for Assessing and Mitigating Emergent Security Risks in Generative AI Models: Bridging Theory and Dynamic Risk Mitigation [0.3413711585591077]
大規模言語モデル(LLM)や拡散モデルを含む生成AIシステムが急速に進歩するにつれ、その採用が増加し、新たな複雑なセキュリティリスクがもたらされた。
本稿では,これらの突発的なセキュリティリスクを分類・緩和するための新しい形式的枠組みを提案する。
我々は、潜時空間利用、マルチモーダル・クロスアタック・ベクター、フィードバックループによるモデル劣化など、未探索のリスクを特定した。
論文 参考訳(メタデータ) (2024-10-15T02:51:32Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。