論文の概要: Safe Explicable Planning
- arxiv url: http://arxiv.org/abs/2304.03773v3
- Date: Tue, 26 Mar 2024 17:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 01:49:43.727906
- Title: Safe Explicable Planning
- Title(参考訳): 安全な説明可能な計画
- Authors: Akkamahadevi Hanni, Andrew Boateng, Yu Zhang,
- Abstract要約: 安全計画(SEP:Safe Explicable Planning)を提案する。
提案手法は,複数のモデルから派生した複数の対象の考察を一般化する。
これらの手法の望ましい理論的性質を検証するための公式な証明を提供する。
- 参考スコア(独自算出の注目度): 3.3869539907606603
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human expectations arise from their understanding of others and the world. In the context of human-AI interaction, this understanding may not align with reality, leading to the AI agent failing to meet expectations and compromising team performance. Explicable planning, introduced as a method to bridge this gap, aims to reconcile human expectations with the agent's optimal behavior, facilitating interpretable decision-making. However, an unresolved critical issue is ensuring safety in explicable planning, as it could result in explicable behaviors that are unsafe. To address this, we propose Safe Explicable Planning (SEP), which extends the prior work to support the specification of a safety bound. The goal of SEP is to find behaviors that align with human expectations while adhering to the specified safety criterion. Our approach generalizes the consideration of multiple objectives stemming from multiple models rather than a single model, yielding a Pareto set of safe explicable policies. We present both an exact method, guaranteeing finding the Pareto set, and a more efficient greedy method that finds one of the policies in the Pareto set. Additionally, we offer approximate solutions based on state aggregation to improve scalability. We provide formal proofs that validate the desired theoretical properties of these methods. Evaluation through simulations and physical robot experiments confirms the effectiveness of our approach for safe explicable planning.
- Abstract(参考訳): 人間の期待は、他人や世界に対する理解から生まれる。
人間とAIの相互作用の文脈では、この理解は現実と一致しないかもしれない。
このギャップを埋める方法として導入された説明可能なプランニングは、人間の期待をエージェントの最適な行動と調和させることを目的としており、解釈可能な意思決定を容易にする。
しかし、未解決の重大な問題は、説明可能な計画における安全性を保証することだ。
そこで,本稿では,セーフ・エクスプリシブル・プランニング(SEP)を提案する。
SEPの目標は、特定の安全基準に固執しながら、人間の期待に沿う行動を見つけることである。
提案手法は,1つのモデルではなく複数のモデルから派生した複数の目的の考察を一般化し,パレートの安全な説明可能なポリシーを導出する。
パレート集合を見つけるための正確な方法と、パレート集合のポリシーの1つを見つけるより効率的なグリージー法の両方を提示する。
さらに、拡張性を改善するために、状態アグリゲーションに基づく近似的なソリューションを提供する。
これらの手法の望ましい理論的性質を検証するための公式な証明を提供する。
シミュレーションと物理ロボット実験による評価により,提案手法の有効性が検証された。
関連論文リスト
- Classification with Conceptual Safeguards [7.093692674858257]
確立された概念を用いた分類作業における安全性向上のための新しいアプローチを提案する。
コンセプトセーフガードと呼ばれる私たちのアプローチは、モデルの検証レイヤとして機能します。
我々は、実世界のデータセットと合成データセットの集合にアプローチをベンチマークする。
論文 参考訳(メタデータ) (2024-11-07T00:41:11Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Expectation Alignment: Handling Reward Misspecification in the Presence of Expectation Mismatch [19.03141646688652]
我々は、人間のAIエージェントに対する信念である心の理論を基礎として、公式な説明的枠組みを開発する。
ユーザからの期待を推測するために,特定報酬を用いた対話型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T19:43:37Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Probabilistic Constraint for Safety-Critical Reinforcement Learning [13.502008069967552]
確率的制約付き強化学習(RL)における安全な政策学習の課題について考察する。
SPG-Actor-Critic は SPG-REINFORCE よりも低い分散をもたらす。
両SPGを利用して安全なポリシを学習できるSafe Primal-Dualアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-29T19:41:56Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Risk-Constrained Interactive Safety under Behavior Uncertainty for
Autonomous Driving [0.0]
許可された計画領域を制限する安全封筒は、行動の不確実性の存在下で解釈可能な安全性をもたらす。
人間は、安全封筒に違反する確率的リスクを受け入れることによって、密集した交通における安全と効率のバランスをとる。
論文 参考訳(メタデータ) (2021-02-05T08:33:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。