論文の概要: TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent
Constitution
- arxiv url: http://arxiv.org/abs/2402.01586v1
- Date: Fri, 2 Feb 2024 17:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:01:50.998218
- Title: TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent
Constitution
- Title(参考訳): TrustAgent:エージェント・コンスティチューションによる安全で信頼できるLDMエージェントを目指して
- Authors: Wenyue Hua, Xianjun Yang, Zelong Li, Cheng Wei, Yongfeng Zhang
- Abstract要約: 本稿では, エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
本研究では,計画立案戦略が計画立案に先立ってどのように安全知識を注入するか,計画立案戦略が計画立案時の安全性を高めること,計画立案後の検査による安全性を確保することを実証する。
我々は,安全性と利便性の複雑な関係,およびモデル推論能力と安全エージェントとしての有効性について検討する。
- 参考スコア(独自算出の注目度): 44.26813090048829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of LLM-based agents has garnered considerable attention, yet
their trustworthiness remains an under-explored area. As agents can directly
interact with the physical environment, their reliability and safety is
critical. This paper presents an Agent-Constitution-based agent framework,
TrustAgent, an initial investigation into improving the safety dimension of
trustworthiness in LLM-based agents. This framework consists of threefold
strategies: pre-planning strategy which injects safety knowledge to the model
prior to plan generation, in-planning strategy which bolsters safety during
plan generation, and post-planning strategy which ensures safety by
post-planning inspection. Through experimental analysis, we demonstrate how
these approaches can effectively elevate an LLM agent's safety by identifying
and preventing potential dangers. Furthermore, we explore the intricate
relationships between safety and helpfulness, and between the model's reasoning
ability and its efficacy as a safe agent. This paper underscores the imperative
of integrating safety awareness and trustworthiness into the design and
deployment of LLM-based agents, not only to enhance their performance but also
to ensure their responsible integration into human-centric environments. Data
and code are available at https://github.com/agiresearch/TrustAgent.
- Abstract(参考訳): llmに基づくエージェントの出現は、かなりの注目を集めているが、信頼度は未調査領域である。
エージェントは物理的な環境と直接対話できるので、信頼性と安全性は重要です。
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
本枠組みは, 計画作成前のモデルに安全知識を注入する事前計画戦略, 計画作成時の安全性を高める内計画戦略, 計画後検査による安全性を確保する後計画戦略からなる。
実験により,これらの手法がLLMエージェントの安全性を効果的に高め,潜在的な危険を識別し,防止する方法を実証する。
さらに, 安全性と利便性の複雑な関係, モデルの推論能力と安全エージェントとしての有効性について検討した。
本稿では,LLMをベースとしたエージェントの設計と展開に安全意識と信頼性を組み込むことが,その性能向上だけでなく,人間中心環境への責任ある統合を確実にするためにも不可欠であることを示す。
データとコードはhttps://github.com/agiresearch/trustagentで入手できる。
関連論文リスト
- Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - DAWN: Designing Distributed Agents in a Worldwide Network [0.38447712214412116]
DAWNはグローバルに分散エージェントを登録し、ゲートウェイエージェントを通じて簡単に発見できる。
No-LLM Mode for Deterministic Task, Copilot for augmented decision-making, and LLM Agent for autonomous operations。
DAWNは、専用の安全性、セキュリティ、コンプライアンスレイヤを通じて、世界中のエージェントコラボレーションの安全性とセキュリティを保証する。
論文 参考訳(メタデータ) (2024-10-11T18:47:04Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents [3.09793323158304]
本稿では,企業におけるWebエージェントの安全性と信頼性を評価するためのベンチマークであるST-WebAgentBenchを紹介する。
このベンチマークは、セーフで信頼できる(ST)エージェントの振る舞いを定義する詳細なフレームワークに基づいている。
我々の評価は、現在のSOTAエージェントが政策遵守に苦慮し、重要なビジネスアプリケーションにはまだ頼っていないことを示している。
論文 参考訳(メタデータ) (2024-10-09T09:13:38Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - Athena: Safe Autonomous Agents with Verbal Contrastive Learning [3.102303947219617]
大規模言語モデル(LLM)は、様々なタスクを実行するために言語ベースのエージェントとして利用されてきた。
本研究では,言語コントラスト学習の概念を活用したアテナフレームワークを提案する。
このフレームワークには、エージェントを誘導するクオリティ機構も組み込まれており、各ステップにおけるリスクのあるアクションを防ぐ。
論文 参考訳(メタデータ) (2024-08-20T17:21:10Z) - InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback [70.54226917774933]
本稿では,リスク行動が実行される前に,潜在的なエラーを積極的に検出する新しい手法であるInferActを紹介する。
InferActは人間のプロキシとして機能し、安全でないアクションを検出し、ユーザーの介入を警告する。
広く使われている3つのタスクの実験は、InferActの有効性を示している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。