論文の概要: InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback
- arxiv url: http://arxiv.org/abs/2407.11843v2
- Date: Thu, 17 Oct 2024 11:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:59:00.519531
- Title: InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback
- Title(参考訳): InferAct: プリエンプティブ・アセスメントとヒューマンフィードバックによるLLMエージェントの安全行動の推測
- Authors: Haishuo Fang, Xiaodan Zhu, Iryna Gurevych,
- Abstract要約: 本稿では,リスク行動が実行される前に,潜在的なエラーを積極的に検出する新しい手法であるInferActを紹介する。
InferActは人間のプロキシとして機能し、安全でないアクションを検出し、ユーザーの介入を警告する。
広く使われている3つのタスクの実験は、InferActの有効性を示している。
- 参考スコア(独自算出の注目度): 70.54226917774933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A crucial requirement for deploying LLM-based agents in real-life applications is the robustness against risky or even irreversible mistakes. However, the existing research lacks a focus on preemptive evaluation of reasoning trajectories performed by LLM agents, leading to a gap in ensuring safe and reliable operations. To explore better solutions, this paper introduces InferAct, a novel approach that leverages the belief reasoning ability of LLMs, grounded in Theory-of-Mind, to proactively detect potential errors before risky actions are executed (e.g., `buy-now' in automatic online trading or web shopping). InferAct acts as a human proxy, detecting unsafe actions and alerting users for intervention, which helps prevent irreversible risks in time and enhances the actor agent's decision-making process. Experiments on three widely-used tasks demonstrate the effectiveness of InferAct, presenting a novel solution for safely developing LLM agents in environments involving critical decision-making.
- Abstract(参考訳): LLMベースのエージェントを現実のアプリケーションにデプロイするための重要な要件は、リスクや不可逆的ミスに対する堅牢性である。
しかし, 従来の研究では, LLMエージェントによる推理軌道のプリエンプティブ評価に重点を置いておらず, 安全性と信頼性の確保にギャップが生じた。
より優れたソリューションを探求するために,リスク行動の実行前に潜在的なエラーを積極的に検出するために,LLMの信念推論能力を活用した新しいアプローチであるInferActを紹介した(例えば,オンライン取引やWebショッピングにおける'buy-now'など)。
InferActは人間のプロキシとして機能し、安全でないアクションを検出し、ユーザーの介入を警告する。
3つの広く利用されているタスクの実験は、重要な意思決定を含む環境において、LLMエージェントを安全に開発するための新しいソリューションであるInferActの有効性を示す。
関連論文リスト
- Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [80.45174785447136]
実験室の事故は人命と財産に重大なリスクをもたらす。
安全訓練の進歩にもかかわらず、実験員はいまだに無意識に安全でない慣行に従事している可能性がある。
様々な分野におけるガイダンスのための大きな言語モデル(LLM)に対する懸念が高まっている。
論文 参考訳(メタデータ) (2024-10-18T05:21:05Z) - Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - GUARD-D-LLM: An LLM-Based Risk Assessment Engine for the Downstream uses of LLMs [0.0]
本稿では,大規模言語モデル(LLM)の下流から発生するリスクについて検討する。
テキストベースのユーザ入力から派生した特定のユースケースに関連する脅威を特定し、ランク付けする新しいLCMベースのリスクアセスメントエンジン(GUARD-D-LLM)を導入する。
30の知的エージェントを統合することで、この革新的なアプローチは、悪夢のリスクを特定し、その重症度を測定し、緩和のためのターゲットとなる提案を提供し、リスク認識開発を促進する。
論文 参考訳(メタデータ) (2024-04-02T05:25:17Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents [7.33319373357049]
本稿では,Deep Reinforcement Learning (DRL)エージェント用に特別に設計されたブラックボックス安全監視手法SMARLAを紹介する。
SMARLAは機械学習を利用して、実行中のエージェントの動作を観察し、安全違反を予測する。
実験の結果、SMARLAは偽陽性率の低い安全違反を予測するのに正確であり、違反が起こる前にエージェントの実行の途中で早期に違反を予測することができることが明らかになった。
論文 参考訳(メタデータ) (2023-08-03T21:08:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。