Fugu-MT 論文翻訳(概要): TrustAgent: Towards Safe and Trustworthy LLM-based Agents

論文の概要: TrustAgent: Towards Safe and Trustworthy LLM-based Agents

arxiv url: http://arxiv.org/abs/2402.01586v4
Date: Thu, 03 Oct 2024 22:12:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 07:55:55.241327
Title: TrustAgent: Towards Safe and Trustworthy LLM-based Agents
Title（参考訳）: TrustAgent: 安全で信頼できるLDMベースのエージェントを目指して
Authors: Wenyue Hua, Xianjun Yang, Mingyu Jin, Zelong Li, Wei Cheng, Ruixiang Tang, Yongfeng Zhang,
Abstract要約: 本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
参考スコア（独自算出の注目度）: 50.33549510615024
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rise of LLM-based agents shows great potential to revolutionize task planning, capturing significant attention. Given that these agents will be integrated into high-stake domains, ensuring their reliability and safety is crucial. This paper presents an Agent-Constitution-based agent framework, TrustAgent, with a particular focus on improving the LLM-based agent safety. The proposed framework ensures strict adherence to the Agent Constitution through three strategic components: pre-planning strategy which injects safety knowledge to the model before plan generation, in-planning strategy which enhances safety during plan generation, and post-planning strategy which ensures safety by post-planning inspection. Our experimental results demonstrate that the proposed framework can effectively enhance an LLM agent's safety across multiple domains by identifying and mitigating potential dangers during the planning. Further analysis reveals that the framework not only improves safety but also enhances the helpfulness of the agent. Additionally, we highlight the importance of the LLM reasoning ability in adhering to the Constitution. This paper sheds light on how to ensure the safe integration of LLM-based agents into human-centric environments. Data and code are available at https://github.com/agiresearch/TrustAgent.
Abstract（参考訳）: LLMをベースとしたエージェントの台頭は、タスク計画に革命をもたらす可能性を示し、大きな注目を集めている。これらのエージェントが高リスクドメインに統合されることを考えると、信頼性と安全性が不可欠である。本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。提案手法は,計画中の潜在的リスクを特定し緩和することにより,複数の領域にわたるLLMエージェントの安全性を効果的に向上できることを示す。さらなる分析により、フレームワークは安全性を向上するだけでなく、エージェントの有用性も向上することが明らかとなった。さらに, 憲法を遵守する上で, LLM推論能力の重要性を強調した。本稿では,LLMをベースとしたエージェントを人間中心の環境に安全に統合する方法について述べる。データとコードはhttps://github.com/agiresearch/TrustAgent.comで入手できる。

関連論文リスト

A Framework for Benchmarking and Aligning Task-Planning Safety in LLM-Based Embodied Agents [13.225168384790257]
大規模言語モデル(LLM)は、エンボディエージェント内のタスク計画能力を向上する上で大きな可能性を秘めている。我々は, LLMをベースとしたエンボディエージェントの挙動を, セーフプランベンチとアライメントのための統合フレームワークであるSafe-BeAlを提案する。我々の経験的分析によると、敵対的な入力や悪意がなくても、LSMベースのエージェントは安全でない行動を示すことができる。
論文参考訳（メタデータ） (2025-04-20T15:12:14Z)
A Survey on Trustworthy LLM Agents: Threats and Countermeasures [67.23228612512848]
大規模言語モデル(LLM)とマルチエージェントシステム(MAS)はLLMエコシステムの機能を大幅に拡張した。本稿では,エージェントの信頼性に関する総合的研究であるTrustAgentフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-12T08:42:05Z)
AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。 AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文参考訳（メタデータ） (2025-02-17T05:12:33Z)
Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。 Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。 16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文参考訳（メタデータ） (2024-12-19T02:35:15Z)
SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [42.69984822098671]
既存のベンチマークは主に重要な安全リスクを見落とし、パフォーマンスの計画に集中しています。我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを提案する。 SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な、多種多様で高品質なデータセット、(2)低レベルコントローラを備えた普遍的な実施環境であるSafeAgentEnvは、8つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートし、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法である。
論文参考訳（メタデータ） (2024-12-17T18:55:58Z)
Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文参考訳（メタデータ） (2024-11-21T08:20:31Z)
DAWN: Designing Distributed Agents in a Worldwide Network [0.38447712214412116]
DAWNはグローバルに分散エージェントを登録し、ゲートウェイエージェントを通じて簡単に発見できる。 No-LLM Mode for Deterministic Task, Copilot for augmented decision-making, and LLM Agent for autonomous operations。 DAWNは、専用の安全性、セキュリティ、コンプライアンスレイヤを通じて、世界中のエージェントコラボレーションの安全性とセキュリティを保証する。
論文参考訳（メタデータ） (2024-10-11T18:47:04Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents [3.09793323158304]
本稿では,企業におけるWebエージェントの安全性と信頼性を評価するためのベンチマークであるST-WebAgentBenchを紹介する。このベンチマークは、セーフで信頼できる(ST)エージェントの振る舞いを定義する詳細なフレームワークに基づいている。我々の評価は、現在のSOTAエージェントが政策遵守に苦慮し、重要なビジネスアプリケーションにはまだ頼っていないことを示している。
論文参考訳（メタデータ） (2024-10-09T09:13:38Z)
Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文参考訳（メタデータ） (2024-09-03T10:14:51Z)
Athena: Safe Autonomous Agents with Verbal Contrastive Learning [3.102303947219617]
大規模言語モデル(LLM)は、様々なタスクを実行するために言語ベースのエージェントとして利用されてきた。本研究では,言語コントラスト学習の概念を活用したアテナフレームワークを提案する。このフレームワークには、エージェントを誘導するクオリティ機構も組み込まれており、各ステップにおけるリスクのあるアクションを防ぐ。
論文参考訳（メタデータ） (2024-08-20T17:21:10Z)
InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback [70.54226917774933]
本稿では,リスク行動が実行される前に,潜在的なエラーを積極的に検出する新しい手法であるInferActを紹介する。 InferActは人間のプロキシとして機能し、安全でないアクションを検出し、ユーザーの介入を警告する。広く使われている3つのタスクの実験は、InferActの有効性を示している。
論文参考訳（メタデータ） (2024-07-16T15:24:44Z)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。 GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文参考訳（メタデータ） (2024-06-13T14:49:26Z)
Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文参考訳（メタデータ） (2024-02-06T18:54:07Z)
Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文参考訳（メタデータ） (2023-11-20T15:50:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。