論文の概要: InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback
- arxiv url: http://arxiv.org/abs/2407.11843v1
- Date: Tue, 16 Jul 2024 15:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 14:13:22.142841
- Title: InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback
- Title(参考訳): InferAct: プリエンプティブ・アセスメントとヒューマンフィードバックによるLLMエージェントの安全行動の推測
- Authors: Haishuo Fang, Xiaodan Zhu, Iryna Gurevych,
- Abstract要約: 本稿では、クリティカルアクションの実行前に潜在的なエラーを積極的に検出する新しいアプローチであるInferActを紹介する。
InferActはまた、人間のフィードバックを統合することで、不可逆的なリスクを防ぎ、アクターの意思決定プロセスを強化することができる。
- 参考スコア(独自算出の注目度): 70.54226917774933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A crucial requirement for deploying LLM-based agents in real-life applications is robustness against risky or irreversible mistakes. However, existing research lacks a focus on the preemptive evaluation of reasoning trajectories performed by LLM agents, leading to a gap in ensuring safe and reliable operations. To explore better solutions, this paper introduces InferAct, a novel approach that leverages the Theory-of-Mind capability of LLMs to proactively detect potential errors before critical actions are executed (e.g., "buy-now" in automatic online trading or web shopping). InferAct is also capable of integrating human feedback to prevent irreversible risks and enhance the actor agent's decision-making process. Experiments on three widely used tasks demonstrate the effectiveness of InferAct. The proposed solution presents a novel approach and concrete contributions toward developing LLM agents that can be safely deployed in different environments involving critical decision-making.
- Abstract(参考訳): LLMベースのエージェントを現実のアプリケーションにデプロイするための重要な要件は、リスクや不可逆的な誤りに対する堅牢性である。
しかし、既存の研究では、LLMエージェントによる推論軌道のプリエンプティブな評価に重点を置いていないため、安全で信頼性の高い操作の確保にギャップが生じる。
より優れたソリューションを探求するために,本論文では,LCMの理論的能力を活用した新たなアプローチであるInferActを紹介し,クリティカルアクションの実行前に潜在的なエラーを積極的に検出する(例えば,オンラインの自動取引やWebショッピングにおける「購入」など)。
InferActはまた、人間のフィードバックを統合することで、不可逆的なリスクを防ぎ、アクターの意思決定プロセスを強化することができる。
広く使われている3つのタスクの実験は、InferActの有効性を示している。
提案手法は, 批判的意思決定を含む環境に安全に展開可能なLSMエージェントの開発に, 新たなアプローチと具体的な貢献を行うものである。
関連論文リスト
- Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - Controlling Large Language Model Agents with Entropic Activation Steering [20.56909601159833]
本研究では,大規模言語モデル(LLM)が,制御された逐次意思決定タスクにおいて実験を行うことで,信念にどのように作用するかを検討する。
不十分な証拠に基づいて何をすべきかという強い結論を導き、結果として爆発的な振る舞いが不十分になる。
In-context LLMエージェントのアクティベーションステアリング法であるEntropic Activation Steering (EAST)を導入する。
論文 参考訳(メタデータ) (2024-06-01T00:25:00Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Optimization-based Prompt Injection Attack to LLM-as-a-Judge [78.20257854455562]
我々は,LLM-as-a-Judgeに合わせた新しい最適化ベースのプロンプトインジェクションアタックであるJiceDeceiverを紹介する。
提案手法は, LLM-as-a-Judgeの意思決定プロセスに対する正確な最適化目標を定式化する。
本手法は,手技によるインジェクション攻撃と比較して,優れた有効性を示す。
論文 参考訳(メタデータ) (2024-03-26T13:58:00Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent
Constitution [48.84353890821038]
本稿では, エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
本研究では,計画立案戦略が計画立案に先立ってどのように安全知識を注入するか,計画立案戦略が計画立案時の安全性を高めること,計画立案後の検査による安全性を確保することを実証する。
我々は,安全性と利便性の複雑な関係,およびモデル推論能力と安全エージェントとしての有効性について検討する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。