論文の概要: Imitating careful experts to avoid catastrophic events
- arxiv url: http://arxiv.org/abs/2302.01193v1
- Date: Thu, 2 Feb 2023 16:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:28:28.346519
- Title: Imitating careful experts to avoid catastrophic events
- Title(参考訳): 破滅的な事態を避けるための注意深い専門家の派遣
- Authors: Jack R. P. Hanslope and Laurence Aitchison
- Abstract要約: 我々は、RLが制御するロボットシステムが人間を傷つけないようにする方法を示す。
この問題は、報酬関数を明確に書き下すことができないリッチで現実的な設定では特に難しい。
我々は、注意信号をIRLに組み込んで、IRLが破滅的な結果から望ましくないものを曖昧にすることを可能にしている。
- 参考スコア(独自算出の注目度): 32.45282187405337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RL is increasingly being used to control robotic systems that interact
closely with humans. This interaction raises the problem of safe RL: how to
ensure that a RL-controlled robotic system never, for instance, injures a
human. This problem is especially challenging in rich, realistic settings where
it is not even possible to clearly write down a reward function which
incorporates these outcomes. In these circumstances, perhaps the only viable
approach is based on IRL, which infers rewards from human demonstrations.
However, IRL is massively underdetermined as many different rewards can lead to
the same optimal policies; we show that this makes it difficult to distinguish
catastrophic outcomes (such as injuring a human) from merely undesirable
outcomes. Our key insight is that humans do display different behaviour when
catastrophic outcomes are possible: they become much more careful. We
incorporate carefulness signals into IRL, and find that they do indeed allow
IRL to disambiguate undesirable from catastrophic outcomes, which is critical
to ensuring safety in future real-world human-robot interactions.
- Abstract(参考訳): RLは、人間と密接に対話するロボットシステムを制御するために、ますます使われている。
この相互作用は安全なRLの問題を提起する:例えば、RLが制御するロボットシステムが人間を傷つけないようにする方法。
この問題は、これらの結果を含む報酬関数を明確に書き下すことができないリッチで現実的な設定において特に困難である。
これらの状況では、おそらく唯一実行可能なアプローチは、人間のデモンストレーションから報酬を推測するIRLに基づいている。
しかし、IRLは、多くの異なる報酬が同じ最適政策につながるため、非常に過小評価されており、これは(人を傷つけるなど)破滅的な結果と単に望ましくない結果とを区別することが困難であることを示している。
私たちの重要な洞察は、破滅的な結果が得られれば、人間は異なる行動を示すということです。
我々は、注意信号をIRLに組み込んで、IRLが破滅的な結果から望ましくないものを曖昧にすることが、将来の現実世界の人間とロボットの相互作用の安全性を保証するために重要であることを発見した。
関連論文リスト
- Guessing human intentions to avoid dangerous situations in caregiving robots [1.3546242205182986]
本研究では,人間の危険状況を検出するアルゴリズムを提案する。
ATMにシミュレーションベースのアプローチを導入し、「いいね!」ポリシーを採用し、人々に意図や行動を割り当てる。
このアルゴリズムは既存の認知アーキテクチャの一部として実装され、シミュレーションシナリオでテストされている。
論文 参考訳(メタデータ) (2024-03-24T20:43:29Z) - Quantifying Assistive Robustness Via the Natural-Adversarial Frontier [40.125563987538044]
RIGIDは、ロボット報酬の最小化と人間の行動とをトレードオフする対人政策の訓練方法である。
補助ギムタスクでは、RIGIDを用いて、標準的な協調強化学習のパフォーマンスを分析する。
また,フロンティアのRIGIDを,専門家の対人インタラクションで特定された障害と,ユーザインタラクション中に自然に発生する障害とを比較した。
論文 参考訳(メタデータ) (2023-10-16T17:34:54Z) - Absolutist AI [0.0]
絶対的な制約でAIシステムを訓練することは、多くのAI安全問題にかなりの進歩をもたらす可能性がある。
ミスアライメントの最悪の結果を避けるためのガードレールを提供する。
非常に価値のある結果を得るために、AIが大惨事を引き起こすのを防げるかもしれない。
論文 参考訳(メタデータ) (2023-07-19T03:40:37Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Learning to Influence Human Behavior with Offline Reinforcement Learning [70.7884839812069]
人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
論文 参考訳(メタデータ) (2023-03-03T23:41:55Z) - Learning Latent Representations to Co-Adapt to Humans [12.71953776723672]
非定常的な人間はロボット学習者に挑戦しています。
本稿では,ロボットが動的人間と協調して適応できるアルゴリズム形式について紹介する。
論文 参考訳(メタデータ) (2022-12-19T16:19:24Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z) - When Humans Aren't Optimal: Robots that Collaborate with Risk-Aware
Humans [16.21572727245082]
安全かつ効率的に協力するためには、ロボットは人間のパートナーがどのように振る舞うかを予測する必要がある。
本稿では,累積プロスペクト理論(Cumulative Prospect Theory)と呼ばれる行動経済学から,よく知られたリスク対応人間モデルを採用する。
これにより、モデリング精度が向上し、より安全で効率的な人間とロボットのコラボレーションがもたらされることが判明した。
論文 参考訳(メタデータ) (2020-01-13T16:27:46Z) - Cooperative Inverse Reinforcement Learning [64.60722062217417]
協調強化学習(CIRL)としての値アライメント問題の形式的定義を提案する。
CIRL問題は、人間とロボットの2人のエージェントによる協調的部分情報ゲームであり、どちらも人間の報酬関数に従って報酬を受けるが、ロボットは当初それが何であるかを知らない。
古典的なIRLとは対照的に、人間は孤立して最適な行動をとると仮定されるが、最適なCIRLソリューションは活発な教育、活発な学習、コミュニケーション行動などの行動を生み出す。
論文 参考訳(メタデータ) (2016-06-09T22:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。