Fugu-MT 論文翻訳(概要): Context is Key for Agent Security

論文の概要: Context is Key for Agent Security

arxiv url: http://arxiv.org/abs/2501.17070v2
Date: Wed, 29 Jan 2025 20:02:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 12:32:10.140634
Title: Context is Key for Agent Security
Title（参考訳）: エージェントセキュリティのためのコンテキスト
Authors: Lillian Tsai, Eugene Bagdasarian,
Abstract要約: 本稿では,エージェント領域におけるコンテキストセキュリティについて考察する。それは、ジャスト・イン・タイム、コンテキスト、人間検証可能なセキュリティポリシーを生成するフレームワークであるConsecaを提案する。
参考スコア（独自算出の注目度）: 0.276240219662896
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Judging the safety of an action, whether taken by a human or a system, must take into account the context in which the action takes place. For example, deleting an email from a user's mailbox may or may not be appropriate depending on the email's content, the user's goals, or even available space. Systems today that make these judgements -- providing security against harmful or inappropriate actions -- rely on manually-crafted policies or user confirmation for each relevant context. With the upcoming deployment of systems like generalist agents, we argue that we must rethink security designs to adapt to the scale of contexts and capabilities of these systems. As a first step, this paper explores contextual security in the domain of agents and proposes contextual security for agents (Conseca), a framework to generate just-in-time, contextual, and human-verifiable security policies.
Abstract（参考訳）: 行動の安全性を判断するには、人間かシステムによってなされるかにかかわらず、その行動が起こる状況を考慮する必要がある。例えば、電子メールをユーザのメールボックスから削除することは、メールの内容、ユーザの目標、あるいは利用可能なスペースに応じて適切であるかもしれないし、適切でないかもしれない。今日では、有害または不適切なアクションに対するセキュリティを提供する、これらの判断を下すシステムは、関連するコンテキストごとに手作業によるポリシーやユーザ確認に依存しています。ジェネラリストエージェントのようなシステムの今後の展開では、これらのシステムのコンテキストや能力のスケールに適応するためには、セキュリティ設計を再考する必要がある、と私たちは主張する。最初のステップとして、エージェントのドメインにおけるコンテキストセキュリティについて検討し、ジャスト・イン・タイム、コンテキスト、人間検証可能なセキュリティポリシーを生成するフレームワークであるエージェントのコンテキストセキュリティ(Conseca)を提案する。

関連論文リスト

OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
Kaleidoscopic Teaming in Multi Agent Simulations [75.47388708240042]
我々は,エージェントが行う複雑な行動,思考プロセス,行動の安全性リスクを評価する上で,既存のレッドチームや安全評価フレームワークは不十分であると主張している。我々は,新しいコンテキスト内最適化手法を導入し,安全解析のためのより良いシナリオを生成する。エージェントの安全性を測定するためのフレームワークとともに使用できる適切なメトリクスを提案する。
論文参考訳（メタデータ） (2025-06-20T23:37:17Z)
Effective Red-Teaming of Policy-Adherent Agents [7.080204863156575]
タスク指向のLLMベースのエージェントは、適格性やキャンセルルールの返金といった厳格なポリシーを持つドメインで、ますます使われています。本稿では,個人的利益のためにポリシーに忠実なエージェントを活用することを目的とした,敵対的ユーザに焦点を当てた新たな脅威モデルを提案する。 CRAFTは、ポリシーを意識した説得戦略を利用して、顧客サービスシナリオにおいてポリシーに忠実なエージェントを弱体化させるマルチエージェントのレッドチームシステムである。
論文参考訳（メタデータ） (2025-06-11T10:59:47Z)
LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。 AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文参考訳（メタデータ） (2025-05-29T21:39:08Z)
Progent: Programmable Privilege Control for LLM Agents [46.49787947705293]
LLMエージェントの最初の特権制御機構であるProgentを紹介する。コアとなるのは、エージェント実行中に適用される権限制御ポリシを柔軟に表現するためのドメイン固有言語である。これにより、エージェント開発者とユーザは、特定のユースケースに対して適切なポリシーを作成し、セキュリティを保証するために決定的にそれらを強制することができる。
論文参考訳（メタデータ） (2025-04-16T01:58:40Z)
Multi-Agent Systems Execute Arbitrary Malicious Code [9.200635465485067]
敵コンテンツは、システム内の制御と通信をハイジャックして、安全でないエージェントや機能を呼び出すことができることを示す。直接的または間接的なプロンプト注入の影響を受けないエージェントであっても,制御フローハイジャック攻撃が成功することを示す。
論文参考訳（メタデータ） (2025-03-15T16:16:08Z)
Firewalls to Secure Dynamic LLM Agentic Networks [36.6600856429565]
本稿では,適応性,セキュリティ,プライバシのバランスをとる制約付きLLMエージェントネットワークの実用設計を提案する。我々のフレームワークは、以前のシミュレーションからタスク固有のルールを自動で構築し、更新し、ファイアウォールを構築します。
論文参考訳（メタデータ） (2025-02-03T21:00:14Z)
SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World [50.937342998351426]
COUT(Chain-of-User-Thought)は、新しい推論パラダイムである。我々は、サイバー環境を認識し、パーソナライズされた要求を推論するエージェントフレームワークであるSmartAgentを紹介する。我々の研究は、まずCOUTプロセスを定式化し、パーソナライズされたエージェント学習を具体化するための予備的な試みとして役立ちます。
論文参考訳（メタデータ） (2024-12-10T12:40:35Z)
Securing Legacy Communication Networks via Authenticated Cyclic Redundancy Integrity Check [98.34702864029796]
認証サイクル冗長性チェック(ACRIC)を提案する。 ACRICは、追加のハードウェアを必要とせずに後方互換性を保持し、プロトコルに依存しない。 ACRICは最小送信オーバーヘッド(1ms)で堅牢なセキュリティを提供する。
論文参考訳（メタデータ） (2024-11-21T18:26:05Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。 AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。 AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文参考訳（メタデータ） (2024-06-19T08:55:56Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
A Formal Model of Security Controls' Capabilities and Its Applications to Policy Refinement and Incident Management [0.2621730497733947]
本稿では,セキュリティ管理がセキュリティポリシーを強制する上で提供する機能を抽象化する形式モデルであるSecurity Capability Model(SCM)を提案する。実世界のシナリオで有効性を検証することで、SCMは異なる複雑なセキュリティタスクの自動化を可能にすることを示す。
論文参考訳（メタデータ） (2024-05-06T15:06:56Z)
ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文参考訳（メタデータ） (2023-10-14T17:10:28Z)
A Model Based Framework for Testing Safety and Security in Operational Technology Environments [0.46040036610482665]
本稿では,テスト中のシステムの安全性とセキュリティの挙動を分析するための有望な手法として,モデルに基づくテスト手法を提案する。基盤となるフレームワークの構造は、運用技術環境のテストにおいて重要な要素に従って、4つの部分に分けられる。
論文参考訳（メタデータ） (2023-06-22T05:37:09Z)
Sustainable Adaptive Security [11.574868434725117]
本稿では,新たに発見された脅威を軽減し,適応型セキュリティシステムの拡張による永続的保護を反映したサステナブル・アダプティブ・セキュリティ(SAS)の概念を提案する。私たちはスマートホームの例を使って、持続可能な適応セキュリティを満たすシステムのMAPE(Monitor, Analysis, Planning, Execution)ループのアクティビティをどのように構築できるかを示します。
論文参考訳（メタデータ） (2023-06-05T08:48:36Z)
REGARD: Rules of EngaGement for Automated cybeR Defense to aid in Intrusion Response [0.41998444721319206]
AICA(Automated Intelligent Cyberdefense Agents)は、IDS(Part Intrusion Detection Systems)およびIRS(Part Intrusion Response Systems)である。我々は,人手による指示に従って,管理システムを保護するために,管理システムを保護するためのルール・オブ・エンゲージメント・ディフェンス(REGARD)システムを構築した。
論文参考訳（メタデータ） (2023-05-23T11:52:02Z)
Using In-Context Learning to Improve Dialogue Safety [45.303005593685036]
チャットボットからの応答のバイアスや毒性を低減するための検索手法について検討する。コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。本手法は,トレーニングを必要とせず,強いベースラインと競合する。
論文参考訳（メタデータ） (2023-02-02T04:46:03Z)
Foveate, Attribute, and Rationalize: Towards Physically Safe and Trustworthy AI [76.28956947107372]
包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。実験の結果,FARMはSafeTextデータセットの最先端結果を得ることができ,安全性の分類精度が5.9%向上したことがわかった。
論文参考訳（メタデータ） (2022-12-19T17:51:47Z)
Certifiably Robust Policy Learning against Adversarial Communication in Multi-agent Systems [51.6210785955659]
多くのマルチエージェント強化学習(MARL)では,エージェントが情報を共有し,適切な判断を下す上でコミュニケーションが重要である。しかし、ノイズや潜在的な攻撃者が存在する現実世界のアプリケーションに訓練された通信エージェントを配置すると、通信ベースのポリシーの安全性は過小評価されている深刻な問題となる。本研究では,攻撃者が任意の$CfracN-12$エージェントから被害者エージェントへの通信を任意に変更できる,$N$エージェントを備えた環境を検討する。
論文参考訳（メタデータ） (2022-06-21T07:32:18Z)
Learning with Weak Supervision for Email Intent Detection [56.71599262462638]
本稿では,メールの意図を検出するために,ユーザアクションを弱い監視源として活用することを提案する。メール意図識別のためのエンドツーエンドの堅牢なディープニューラルネットワークモデルを開発した。
論文参考訳（メタデータ） (2020-05-26T23:41:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。