Fugu-MT 論文翻訳(概要): InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback

論文の概要: InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback

arxiv url: http://arxiv.org/abs/2407.11843v1
Date: Tue, 16 Jul 2024 15:24:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 14:13:22.142841
Title: InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback
Title（参考訳）: InferAct: プリエンプティブ・アセスメントとヒューマンフィードバックによるLLMエージェントの安全行動の推測
Authors: Haishuo Fang, Xiaodan Zhu, Iryna Gurevych,
Abstract要約: 本稿では、クリティカルアクションの実行前に潜在的なエラーを積極的に検出する新しいアプローチであるInferActを紹介する。 InferActはまた、人間のフィードバックを統合することで、不可逆的なリスクを防ぎ、アクターの意思決定プロセスを強化することができる。
参考スコア（独自算出の注目度）: 70.54226917774933
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A crucial requirement for deploying LLM-based agents in real-life applications is robustness against risky or irreversible mistakes. However, existing research lacks a focus on the preemptive evaluation of reasoning trajectories performed by LLM agents, leading to a gap in ensuring safe and reliable operations. To explore better solutions, this paper introduces InferAct, a novel approach that leverages the Theory-of-Mind capability of LLMs to proactively detect potential errors before critical actions are executed (e.g., "buy-now" in automatic online trading or web shopping). InferAct is also capable of integrating human feedback to prevent irreversible risks and enhance the actor agent's decision-making process. Experiments on three widely used tasks demonstrate the effectiveness of InferAct. The proposed solution presents a novel approach and concrete contributions toward developing LLM agents that can be safely deployed in different environments involving critical decision-making.
Abstract（参考訳）: LLMベースのエージェントを現実のアプリケーションにデプロイするための重要な要件は、リスクや不可逆的な誤りに対する堅牢性である。しかし、既存の研究では、LLMエージェントによる推論軌道のプリエンプティブな評価に重点を置いていないため、安全で信頼性の高い操作の確保にギャップが生じる。より優れたソリューションを探求するために,本論文では,LCMの理論的能力を活用した新たなアプローチであるInferActを紹介し,クリティカルアクションの実行前に潜在的なエラーを積極的に検出する(例えば,オンラインの自動取引やWebショッピングにおける「購入」など)。 InferActはまた、人間のフィードバックを統合することで、不可逆的なリスクを防ぎ、アクターの意思決定プロセスを強化することができる。広く使われている3つのタスクの実験は、InferActの有効性を示している。提案手法は, 批判的意思決定を含む環境に安全に展開可能なLSMエージェントの開発に, 新たなアプローチと具体的な貢献を行うものである。

関連論文リスト

MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。 MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文参考訳（メタデータ） (2025-07-28T17:38:29Z)
SAND: Boosting LLM Agents with Self-Taught Action Deliberation [53.732649189709285]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。 SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文参考訳（メタデータ） (2025-07-10T05:38:15Z)
Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文参考訳（メタデータ） (2025-06-25T16:51:51Z)
Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-07T02:24:44Z)
MIRROR: Multi-agent Intra- and Inter-Reflection for Optimized Reasoning in Tool Learning [33.009759731505746]
ツール統合を含む複雑なタスクは、大規模言語モデルにとって大きな課題となる。リフレクションはエージェントベンチマークにおける誤った軌道の修正に有効な戦略として現れている。提案するMIRRORは,実行前に意図した動作を批判的に評価するフレームワークと,軌道のさらなる調整を行うインターリフレクションの両方からなるフレームワークである。
論文参考訳（メタデータ） (2025-05-27T03:37:33Z)
PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。これは、安全なデプロイメントを保証する上で、大きな課題となる。 PredictaBoardは,新しいベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-02-20T10:52:38Z)
PSSD: Making Large Language Models Self-denial via Human Psyche Structure [5.057375783924452]
本稿では,3つの異なる役割が人間の推論に寄与するように,人間の精神構造を参照し,実装する。大規模な実験では、提案された設計が推論能力を向上するだけでなく、現行のモデルとシームレスに統合できることが示されている。
論文参考訳（メタデータ） (2025-02-03T13:37:21Z)
Know Your Mistakes: Towards Preventing Overreliance on Task-Oriented Conversational AI Through Accountability Modeling [9.305763502526833]
本稿では,ユーザ過度に対処するタスク指向対話エージェントのための説明責任モデルを提案する。実験結果から,提案手法はAIエージェントエラーの信頼性の高い推定を可能にするだけでなく,デコーダがより正確な動作を生成することを示唆している。
論文参考訳（メタデータ） (2025-01-17T17:40:12Z)
Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。 LLMをベースとしたエージェントの6つの重要な特徴を概説する。 4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文参考訳（メタデータ） (2024-11-14T15:40:04Z)
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [80.45174785447136]
実験室の事故は人命と財産に重大なリスクをもたらす。安全訓練の進歩にもかかわらず、実験員はいまだに無意識に安全でない慣行に従事している可能性がある。様々な分野におけるガイダンスのための大きな言語モデル(LLM)に対する懸念が高まっている。
論文参考訳（メタデータ） (2024-10-18T05:21:05Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文参考訳（メタデータ） (2024-06-16T22:04:10Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-01T12:52:06Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
GUARD-D-LLM: An LLM-Based Risk Assessment Engine for the Downstream uses of LLMs [0.0]
本稿では,大規模言語モデル(LLM)の下流から発生するリスクについて検討する。テキストベースのユーザ入力から派生した特定のユースケースに関連する脅威を特定し、ランク付けする新しいLCMベースのリスクアセスメントエンジン(GUARD-D-LLM)を導入する。 30の知的エージェントを統合することで、この革新的なアプローチは、悪夢のリスクを特定し、その重症度を測定し、緩和のためのターゲットとなる提案を提供し、リスク認識開発を促進する。
論文参考訳（メタデータ） (2024-04-02T05:25:17Z)
Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文参考訳（メタデータ） (2024-02-06T18:54:07Z)
TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文参考訳（メタデータ） (2024-02-02T17:26:23Z)
SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents [7.33319373357049]
本稿では,Deep Reinforcement Learning (DRL)エージェント用に特別に設計されたブラックボックス安全監視手法SMARLAを紹介する。 SMARLAは機械学習を利用して、実行中のエージェントの動作を観察し、安全違反を予測する。実験の結果、SMARLAは偽陽性率の低い安全違反を予測するのに正確であり、違反が起こる前にエージェントの実行の途中で早期に違反を予測することができることが明らかになった。
論文参考訳（メタデータ） (2023-08-03T21:08:51Z)
Moving Forward by Moving Backward: Embedding Action Impact over Action Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文参考訳（メタデータ） (2023-04-24T17:35:47Z)
Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文参考訳（メタデータ） (2022-06-23T16:36:13Z)
How RL Agents Behave When Their Actions Are Modified [0.0]
複雑な環境での強化学習は、エージェントが危険なアクションを試みるのを防ぐために監督を必要とする。本稿では,MDPモデルの拡張であるModified-Action Markov Decision Processについて述べる。
論文参考訳（メタデータ） (2021-02-15T18:10:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。