論文の概要: Preemptive Detection and Correction of Misaligned Actions in LLM Agents
- arxiv url: http://arxiv.org/abs/2407.11843v3
- Date: Fri, 27 Dec 2024 14:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:23:39.456611
- Title: Preemptive Detection and Correction of Misaligned Actions in LLM Agents
- Title(参考訳): LLM剤のミスアライメント検出と補正
- Authors: Haishuo Fang, Xiaodan Zhu, Iryna Gurevych,
- Abstract要約: InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
- 参考スコア(独自算出の注目度): 70.54226917774933
- License:
- Abstract: Deploying LLM-based agents in real-life applications often faces a critical challenge: the misalignment between agents' behavior and user intent. Such misalignment may lead agents to unintentionally execute critical actions that carry negative outcomes (e.g., accidentally triggering a "buy-now" in web shopping), resulting in undesirable or even irreversible consequences. Although addressing these issues is crucial, the preemptive detection and correction of misaligned actions remains relatively underexplored. To fill this gap, we introduce InferAct, a novel approach that leverages the belief reasoning ability of LLMs, grounded in Theory-of-Mind, to detect misaligned actions before execution. Once the misalignment is detected, InferAct alerts users for timely correction, preventing adverse outcomes and enhancing the reliability of LLM agents' decision-making processes. Experiments on three widely used tasks demonstrate that InferAct achieves up to 20% improvements on Marco-F1 against baselines in misaligned action detection. An in-depth evaluation of misalignment correction further highlights InferAct's effectiveness in improving agent alignment.
- Abstract(参考訳): LLMベースのエージェントを現実のアプリケーションにデプロイすることは、エージェントの動作とユーザ意図のミスアライメントという、重大な課題に直面します。
このようなミスアライメントは、ネガティブな結果をもたらす重要なアクション(例えば、Webショッピングにおいて「購入ノウ」を誤って引き起こす)を意図せずに実行し、望ましくない結果や不可逆的な結果をもたらす可能性がある。
これらの問題に対処することは重要であるが、先入観的な行動の検出と修正はいまだに未解明のままである。
このギャップを埋めるために,LLMの信念推論能力を活用した新しいアプローチであるInferActを導入する。
誤調整が検出されると、InferActはユーザーにタイムリーな修正を警告し、有害な結果を防止し、LLMエージェントの意思決定プロセスの信頼性を高める。
広く使用されている3つのタスクの実験により、InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を達成している。
ミスアライメント補正の詳細な評価は、エージェントアライメントの改善におけるInferActの有効性をさらに強調する。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - PSSD: Making Large Language Models Self-denial via Human Psyche Structure [5.057375783924452]
本稿では,3つの異なる役割が人間の推論に寄与するように,人間の精神構造を参照し,実装する。
大規模な実験では、提案された設計が推論能力を向上するだけでなく、現行のモデルとシームレスに統合できることが示されている。
論文 参考訳(メタデータ) (2025-02-03T13:37:21Z) - Know Your Mistakes: Towards Preventing Overreliance on Task-Oriented Conversational AI Through Accountability Modeling [9.305763502526833]
本稿では,ユーザ過度に対処するタスク指向対話エージェントのための説明責任モデルを提案する。
実験結果から,提案手法はAIエージェントエラーの信頼性の高い推定を可能にするだけでなく,デコーダがより正確な動作を生成することを示唆している。
論文 参考訳(メタデータ) (2025-01-17T17:40:12Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - Reconfidencing LLMs from the Grouping Loss Perspective [56.801251926946485]
大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。
近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
論文 参考訳(メタデータ) (2024-02-07T15:40:22Z) - SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents [7.33319373357049]
本稿では,Deep Reinforcement Learning (DRL)エージェント用に特別に設計されたブラックボックス安全監視手法SMARLAを紹介する。
SMARLAは機械学習を利用して、実行中のエージェントの動作を観察し、安全違反を予測する。
実験の結果、SMARLAは偽陽性率の低い安全違反を予測するのに正確であり、違反が起こる前にエージェントの実行の途中で早期に違反を予測することができることが明らかになった。
論文 参考訳(メタデータ) (2023-08-03T21:08:51Z) - Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - How RL Agents Behave When Their Actions Are Modified [0.0]
複雑な環境での強化学習は、エージェントが危険なアクションを試みるのを防ぐために監督を必要とする。
本稿では,MDPモデルの拡張であるModified-Action Markov Decision Processについて述べる。
論文 参考訳(メタデータ) (2021-02-15T18:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。