論文の概要: InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback
- arxiv url: http://arxiv.org/abs/2407.11843v1
- Date: Tue, 16 Jul 2024 15:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 14:13:22.142841
- Title: InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback
- Title(参考訳): InferAct: プリエンプティブ・アセスメントとヒューマンフィードバックによるLLMエージェントの安全行動の推測
- Authors: Haishuo Fang, Xiaodan Zhu, Iryna Gurevych,
- Abstract要約: 本稿では、クリティカルアクションの実行前に潜在的なエラーを積極的に検出する新しいアプローチであるInferActを紹介する。
InferActはまた、人間のフィードバックを統合することで、不可逆的なリスクを防ぎ、アクターの意思決定プロセスを強化することができる。
- 参考スコア(独自算出の注目度): 70.54226917774933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A crucial requirement for deploying LLM-based agents in real-life applications is robustness against risky or irreversible mistakes. However, existing research lacks a focus on the preemptive evaluation of reasoning trajectories performed by LLM agents, leading to a gap in ensuring safe and reliable operations. To explore better solutions, this paper introduces InferAct, a novel approach that leverages the Theory-of-Mind capability of LLMs to proactively detect potential errors before critical actions are executed (e.g., "buy-now" in automatic online trading or web shopping). InferAct is also capable of integrating human feedback to prevent irreversible risks and enhance the actor agent's decision-making process. Experiments on three widely used tasks demonstrate the effectiveness of InferAct. The proposed solution presents a novel approach and concrete contributions toward developing LLM agents that can be safely deployed in different environments involving critical decision-making.
- Abstract(参考訳): LLMベースのエージェントを現実のアプリケーションにデプロイするための重要な要件は、リスクや不可逆的な誤りに対する堅牢性である。
しかし、既存の研究では、LLMエージェントによる推論軌道のプリエンプティブな評価に重点を置いていないため、安全で信頼性の高い操作の確保にギャップが生じる。
より優れたソリューションを探求するために,本論文では,LCMの理論的能力を活用した新たなアプローチであるInferActを紹介し,クリティカルアクションの実行前に潜在的なエラーを積極的に検出する(例えば,オンラインの自動取引やWebショッピングにおける「購入」など)。
InferActはまた、人間のフィードバックを統合することで、不可逆的なリスクを防ぎ、アクターの意思決定プロセスを強化することができる。
広く使われている3つのタスクの実験は、InferActの有効性を示している。
提案手法は, 批判的意思決定を含む環境に安全に展開可能なLSMエージェントの開発に, 新たなアプローチと具体的な貢献を行うものである。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - PSSD: Making Large Language Models Self-denial via Human Psyche Structure [5.057375783924452]
本稿では,3つの異なる役割が人間の推論に寄与するように,人間の精神構造を参照し,実装する。
大規模な実験では、提案された設計が推論能力を向上するだけでなく、現行のモデルとシームレスに統合できることが示されている。
論文 参考訳(メタデータ) (2025-02-03T13:37:21Z) - Know Your Mistakes: Towards Preventing Overreliance on Task-Oriented Conversational AI Through Accountability Modeling [9.305763502526833]
本稿では,ユーザ過度に対処するタスク指向対話エージェントのための説明責任モデルを提案する。
実験結果から,提案手法はAIエージェントエラーの信頼性の高い推定を可能にするだけでなく,デコーダがより正確な動作を生成することを示唆している。
論文 参考訳(メタデータ) (2025-01-17T17:40:12Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - Reconfidencing LLMs from the Grouping Loss Perspective [56.801251926946485]
大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。
近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
論文 参考訳(メタデータ) (2024-02-07T15:40:22Z) - SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents [7.33319373357049]
本稿では,Deep Reinforcement Learning (DRL)エージェント用に特別に設計されたブラックボックス安全監視手法SMARLAを紹介する。
SMARLAは機械学習を利用して、実行中のエージェントの動作を観察し、安全違反を予測する。
実験の結果、SMARLAは偽陽性率の低い安全違反を予測するのに正確であり、違反が起こる前にエージェントの実行の途中で早期に違反を予測することができることが明らかになった。
論文 参考訳(メタデータ) (2023-08-03T21:08:51Z) - Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - How RL Agents Behave When Their Actions Are Modified [0.0]
複雑な環境での強化学習は、エージェントが危険なアクションを試みるのを防ぐために監督を必要とする。
本稿では,MDPモデルの拡張であるModified-Action Markov Decision Processについて述べる。
論文 参考訳(メタデータ) (2021-02-15T18:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。