論文の概要: TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent
Constitution
- arxiv url: http://arxiv.org/abs/2402.01586v2
- Date: Sun, 18 Feb 2024 04:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:08:39.983725
- Title: TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent
Constitution
- Title(参考訳): TrustAgent:エージェント・コンスティチューションによる安全で信頼できるLDMエージェントを目指して
- Authors: Wenyue Hua, Xianjun Yang, Zelong Li, Wei Cheng, Yongfeng Zhang
- Abstract要約: 本稿では, エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
本研究では,計画立案戦略が計画立案に先立ってどのように安全知識を注入するか,計画立案戦略が計画立案時の安全性を高めること,計画立案後の検査による安全性を確保することを実証する。
我々は,安全性と利便性の複雑な関係,およびモデル推論能力と安全エージェントとしての有効性について検討する。
- 参考スコア(独自算出の注目度): 48.84353890821038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of LLM-based agents has garnered considerable attention, yet
their trustworthiness remains an under-explored area. As agents can directly
interact with the physical environment, their reliability and safety is
critical. This paper presents an Agent-Constitution-based agent framework,
TrustAgent, an initial investigation into improving the safety dimension of
trustworthiness in LLM-based agents. This framework consists of threefold
strategies: pre-planning strategy which injects safety knowledge to the model
prior to plan generation, in-planning strategy which bolsters safety during
plan generation, and post-planning strategy which ensures safety by
post-planning inspection. Through experimental analysis, we demonstrate how
these approaches can effectively elevate an LLM agent's safety by identifying
and preventing potential dangers. Furthermore, we explore the intricate
relationships between safety and helpfulness, and between the model's reasoning
ability and its efficacy as a safe agent. This paper underscores the imperative
of integrating safety awareness and trustworthiness into the design and
deployment of LLM-based agents, not only to enhance their performance but also
to ensure their responsible integration into human-centric environments. Data
and code are available at https://github.com/agiresearch/TrustAgent.
- Abstract(参考訳): llmに基づくエージェントの出現は、かなりの注目を集めているが、信頼度は未調査領域である。
エージェントは物理的な環境と直接対話できるので、信頼性と安全性は重要です。
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
本枠組みは, 計画作成前のモデルに安全知識を注入する事前計画戦略, 計画作成時の安全性を高める内計画戦略, 計画後検査による安全性を確保する後計画戦略からなる。
実験により,これらの手法がLLMエージェントの安全性を効果的に高め,潜在的な危険を識別し,防止する方法を実証する。
さらに, 安全性と利便性の複雑な関係, モデルの推論能力と安全エージェントとしての有効性について検討した。
本稿では,LLMをベースとしたエージェントの設計と展開に安全意識と信頼性を組み込むことが,その性能向上だけでなく,人間中心環境への責任ある統合を確実にするためにも不可欠であることを示す。
データとコードはhttps://github.com/agiresearch/trustagentで入手できる。
関連論文リスト
- AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - DAWN: Designing Distributed Agents in a Worldwide Network [0.38447712214412116]
DAWNはグローバルに分散エージェントを登録し、ゲートウェイエージェントを通じて簡単に発見できる。
No-LLM Mode for Deterministic Task, Copilot for augmented decision-making, and LLM Agent for autonomous operations。
DAWNは、専用の安全性、セキュリティ、コンプライアンスレイヤを通じて、世界中のエージェントコラボレーションの安全性とセキュリティを保証する。
論文 参考訳(メタデータ) (2024-10-11T18:47:04Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。