論文の概要: Safe Explicable Robot Planning
- arxiv url: http://arxiv.org/abs/2304.03773v1
- Date: Tue, 4 Apr 2023 21:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-16 22:23:43.018482
- Title: Safe Explicable Robot Planning
- Title(参考訳): 安全な説明可能なロボット計画
- Authors: Akkamahadevi Hanni, Andrew Boateng and Yu Zhang
- Abstract要約: 未解決のままの重大な問題のひとつは、説明可能な意思決定時の安全性だ。
本稿では、安全境界の仕様をサポートするための説明可能な計画を拡張した安全説明計画(SEP)を提案する。
このような定式化の下で、安全な説明可能なポリシーと近似解を返却する、新規で効率的な方法を提案する。
- 参考スコア(独自算出の注目度): 3.8355893560092893
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human expectations stem from their knowledge of the others and the world.
Where human-robot interaction is concerned, such knowledge about the robot may
be inconsistent with the ground truth, resulting in the robot not meeting its
expectations. Explicable planning was previously introduced as a novel planning
approach to reconciling human expectations and the optimal robot behavior for
more interpretable robot decision-making. One critical issue that remains
unaddressed is safety during explicable decision-making which can lead to
explicable behaviors that are unsafe. We propose Safe Explicable Planning
(SEP), which extends explicable planning to support the specification of a
safety bound. The objective of SEP is to find a policy that generates a
behavior close to human expectations while satisfying the safety constraints
introduced by the bound, which is a special case of multi-objective
optimization where the solution to SEP lies on the Pareto frontier. Under such
a formulation, we propose a novel and efficient method that returns the safe
explicable policy and an approximate solution. In addition, we provide
theoretical proof for the optimality of the exact solution under the
designer-specified bound. Our evaluation results confirm the applicability and
efficacy of our method for safe explicable planning.
- Abstract(参考訳): 人間の期待は、他人や世界の知識に起因している。
人間とロボットの相互作用が関係している場合、ロボットに関するそのような知識は根底的な真実と矛盾する可能性がある。
説明可能な計画は、人間の期待を和らげる新しい計画手法として導入され、より解釈可能なロボット決定のための最適なロボット行動が導入された。
問題のひとつは、説明不能な意思決定時の安全性です。
我々は,安全境界の仕様をサポートするために,安全計画を拡張した安全計画(sep)を提案する。
SEPの目的は,SEPの解決策がパレートフロンティアに置かれる多目的最適化の特別な事例である,境界によってもたらされる安全制約を満足しつつ,人間の期待に近い行動を生成する政策を見つけることである。
このような定式化の下で、安全な説明可能なポリシーと近似解を返す新しい効率的な方法を提案する。
さらに,設計者特定境界下での厳密解の最適性に関する理論的証明を提供する。
提案手法の有効性と有効性について検討し,提案手法の有効性を検証した。
関連論文リスト
- Classification with Conceptual Safeguards [7.093692674858257]
確立された概念を用いた分類作業における安全性向上のための新しいアプローチを提案する。
コンセプトセーフガードと呼ばれる私たちのアプローチは、モデルの検証レイヤとして機能します。
我々は、実世界のデータセットと合成データセットの集合にアプローチをベンチマークする。
論文 参考訳(メタデータ) (2024-11-07T00:41:11Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Expectation Alignment: Handling Reward Misspecification in the Presence of Expectation Mismatch [19.03141646688652]
我々は、人間のAIエージェントに対する信念である心の理論を基礎として、公式な説明的枠組みを開発する。
ユーザからの期待を推測するために,特定報酬を用いた対話型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T19:43:37Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Probabilistic Constraint for Safety-Critical Reinforcement Learning [13.502008069967552]
確率的制約付き強化学習(RL)における安全な政策学習の課題について考察する。
SPG-Actor-Critic は SPG-REINFORCE よりも低い分散をもたらす。
両SPGを利用して安全なポリシを学習できるSafe Primal-Dualアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-29T19:41:56Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Risk-Constrained Interactive Safety under Behavior Uncertainty for
Autonomous Driving [0.0]
許可された計画領域を制限する安全封筒は、行動の不確実性の存在下で解釈可能な安全性をもたらす。
人間は、安全封筒に違反する確率的リスクを受け入れることによって、密集した交通における安全と効率のバランスをとる。
論文 参考訳(メタデータ) (2021-02-05T08:33:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。