Fugu-MT 論文翻訳(概要): Safeguarding AI Agents: Developing and Analyzing Safety Architectures

論文の概要: Safeguarding AI Agents: Developing and Analyzing Safety Architectures

arxiv url: http://arxiv.org/abs/2409.03793v2
Date: Fri, 13 Sep 2024 08:14:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 22:28:05.650141
Title: Safeguarding AI Agents: Developing and Analyzing Safety Architectures
Title（参考訳）: AIエージェントの保護 - 安全アーキテクチャの開発と分析
Authors: Ishaan Domkundwar, Mukunda N S, Ishaan Bhola,
Abstract要約: 本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI agents, specifically powered by large language models, have demonstrated exceptional capabilities in various applications where precision and efficacy are necessary. However, these agents come with inherent risks, including the potential for unsafe or biased actions, vulnerability to adversarial attacks, lack of transparency, and tendency to generate hallucinations. As AI agents become more prevalent in critical sectors of the industry, the implementation of effective safety protocols becomes increasingly important. This paper addresses the critical need for safety measures in AI systems, especially ones that collaborate with human teams. We propose and evaluate three frameworks to enhance safety protocols in AI agent systems: an LLM-powered input-output filter, a safety agent integrated within the system, and a hierarchical delegation-based system with embedded safety checks. Our methodology involves implementing these frameworks and testing them against a set of unsafe agentic use cases, providing a comprehensive evaluation of their effectiveness in mitigating risks associated with AI agent deployment. We conclude that these frameworks can significantly strengthen the safety and security of AI agent systems, minimizing potential harmful actions or outputs. Our work contributes to the ongoing effort to create safe and reliable AI applications, particularly in automated operations, and provides a foundation for developing robust guardrails to ensure the responsible use of AI agents in real-world applications.
Abstract（参考訳）: 大規模言語モデルに特化して動作するAIエージェントは、精度と有効性が必要なさまざまなアプリケーションにおいて、例外的な能力を発揮している。しかし、これらのエージェントには、安全でない行動や偏見のない行動の可能性、敵の攻撃に対する脆弱性、透明性の欠如、幻覚を引き起こす傾向など、固有のリスクがある。 AIエージェントが業界の重要なセクターで普及するにつれて、効果的な安全プロトコルの実装がますます重要になっている。本稿では,AIシステム,特に人間チームと連携するシステムにおいて,安全対策の重要要件について論じる。本稿では,LLMを用いた入出力フィルタ,システム内に組み込まれた安全エージェント,組込み安全チェックを備えた階層型デリゲートベースシステムという,AIエージェントシステムの安全性プロトコルを強化するための3つのフレームワークを提案し,評価する。我々の方法論は、これらのフレームワークを実装し、安全でないエージェントのユースケースに対してそれらをテストすることを含み、AIエージェントのデプロイメントに関連するリスクを軽減するためのそれらの効果を包括的に評価する。これらのフレームワークはAIエージェントシステムの安全性と安全性を大幅に強化し、潜在的有害なアクションやアウトプットを最小限にすることができると結論付けている。我々の研究は、特に自動化されたオペレーションにおいて、安全で信頼性の高いAIアプリケーションを作成するための継続的な努力に貢献し、現実世界のアプリケーションでAIエージェントの責任を負うことを保証する堅牢なガードレールを開発するための基盤を提供する。

関連論文リスト

OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文参考訳（メタデータ） (2025-07-01T15:10:00Z)
Securing Generative AI Agentic Workflows: Risks, Mitigation, and a Proposed Firewall Architecture [0.0]
Generative Artificial Intelligence(GenAI)は、大きな進歩を示すと同時に、新たなセキュリティ課題も導入している。本稿では、データプライバシやモデル操作、エージェントの自律性やシステム統合に関わる問題など、GenAIエージェントに固有の重要なセキュリティ脆弱性について概説する。提案されている"GenAI Security Firewall"アーキテクチャは、これらのシステムに対して包括的で、適応可能で、効率的な保護を提供するように設計されている。
論文参考訳（メタデータ） (2025-06-10T07:36:54Z)
TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems [2.462408812529728]
本総説では, LLMに基づくエージェントマルチエージェントシステム (AMAS) の文脈における, textbfTrust, Risk, and Security Management (TRiSM) の構造解析について述べる。まず、エージェントAIの概念的基礎を調べ、従来のAIエージェントとアーキテクチャ的区別を強調します。次に、説明可能性、モデルOps、セキュリティ、プライバシ、ガバナンスの4つの主要な柱を中心に構成された、エージェントAIのためのAI TRiSMフレームワークを適応して拡張します。
論文参考訳（メタデータ） (2025-06-04T16:26:11Z)
LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。 AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文参考訳（メタデータ） (2025-05-29T21:39:08Z)
SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。 AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T10:56:06Z)
Threat Modeling for AI: The Case for an Asset-Centric Approach [0.23408308015481666]
AIシステムは、自律的にコードを実行し、外部システムと対話し、人間の監視なしに運用することが可能になった。 AIシステムが自律的にコードを実行し、外部システムと対話し、人間の監視なしに運用できるようになったことで、従来のセキュリティアプローチは不足する。本稿では、脅威モデリングAIシステムのための資産中心の方法論を紹介する。
論文参考訳（メタデータ） (2025-05-08T18:57:08Z)
Securing Agentic AI: A Comprehensive Threat Model and Mitigation Framework for Generative AI Agents [0.0]
本稿では,GenAIエージェントに特化した包括的脅威モデルを提案する。研究は、9つの主要な脅威を特定し、5つの主要なドメインにまたがってそれらを整理する。
論文参考訳（メタデータ） (2025-04-28T16:29:24Z)
A Framework for the Assurance of AI-Enabled Systems [0.0]
本稿では,AIシステムのリスク管理と保証のためのクレームベースのフレームワークを提案する。論文のコントリビューションは、AI保証のためのフレームワークプロセス、関連する定義のセット、AI保証における重要な考慮事項に関する議論である。
論文参考訳（メタデータ） (2025-04-03T13:44:01Z)
Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems [1.2564343689544843]
我々は、セキュリティリスクとトレードオフを研究するために、共有目的に基づいて協力するAIエージェントのシミュレーションを開発する。我々は、悪意のある指示の多重ホップ拡散という、感染した悪意のあるプロンプトを観察する。この結果から,マルチエージェントシステムにおけるセキュリティと協調効率のトレードオフの可能性が示唆された。
論文参考訳（メタデータ） (2025-02-26T14:00:35Z)
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement [73.0700818105842]
我々は、AI安全のための代表的攻撃、防衛、評価方法論を統合する統合されたフレームワークとツールキットであるAISafetyLabを紹介する。 AISafetyLabには直感的なインターフェースがあり、開発者はシームレスにさまざまなテクニックを適用できる。我々はヴィクナに関する実証的研究を行い、異なる攻撃戦略と防衛戦略を分析し、それらの比較効果に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-02-24T02:11:52Z)
Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文参考訳（メタデータ） (2025-02-19T23:03:21Z)
Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。 Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。 16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文参考訳（メタデータ） (2024-12-19T02:35:15Z)
HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.42274173122328]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文参考訳（メタデータ） (2024-09-24T19:47:21Z)
SafeEmbodAI: a Safety Framework for Mobile Robots in Embodied AI Systems [5.055705635181593]
物理的世界と自律的に対話するAIロボットを含む、身体化されたAIシステムは、かなり進歩している。不適切な安全管理は、複雑な環境で障害を引き起こし、悪意のあるコマンドインジェクションに対してシステムが脆弱になる。我々は,移動ロボットを組込みAIシステムに統合するための安全フレームワークであるtextitSafeEmbodAIを提案する。
論文参考訳（メタデータ） (2024-09-03T05:56:50Z)
EAIRiskBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [47.69642609574771]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。 EAIRiskBenchは、EAIシナリオにおける自動物理的リスクアセスメントのための新しいフレームワークである。
論文参考訳（メタデータ） (2024-08-08T13:19:37Z)
Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文参考訳（メタデータ） (2024-07-31T17:59:24Z)
Security of AI Agents [5.468745160706382]
AIエージェントの研究と開発は、大規模言語モデルによって促進されている。本稿では,システムセキュリティの観点から,これらの脆弱性を詳細に識別し,記述する。本報告では, 各脆弱性に対応する防御機構について, 厳密な設計と実験を行い, その生存性を評価する。
論文参考訳（メタデータ） (2024-06-12T23:16:45Z)
AI Agents Under Threat: A Survey of Key Security Challenges and Future Pathways [10.16690494897609]
人工知能(AI)エージェント(英: Artificial Intelligence, AI)は、自律的にタスクを実行したり、事前に定義された目的やデータ入力に基づいて決定を行うソフトウェアエンティティである。この調査は、AIエージェントが直面している新たなセキュリティ脅威を掘り下げ、これらを4つの重要な知識ギャップに分類する。これらの脅威を体系的にレビューすることにより、この論文はAIエージェントの保護における進歩と既存の制限の両方を強調している。
論文参考訳（メタデータ） (2024-06-04T01:22:31Z)
Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文参考訳（メタデータ） (2024-05-10T17:38:32Z)
TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文参考訳（メタデータ） (2024-02-02T17:26:23Z)
PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文参考訳（メタデータ） (2024-01-22T12:11:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。