論文の概要: Learning Behavioral Soft Constraints from Demonstrations
- arxiv url: http://arxiv.org/abs/2202.10407v1
- Date: Mon, 21 Feb 2022 18:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 09:48:28.249725
- Title: Learning Behavioral Soft Constraints from Demonstrations
- Title(参考訳): 実証から行動のソフト制約を学習する
- Authors: Arie Glazier, Andrea Loreggia, Nicholas Mattei, Taher Rahgooy,
Francesca Rossi, Brent Venable
- Abstract要約: 本稿では,状態,行動,状態特徴に対する暗黙の厳密な制約を学習するための新しい逆強化学習法を提案する。
本手法は,エージェント設計者による明示的なモデリングを必要とせず,人的制約や欲求を暗黙的に学習することを可能にする。
- 参考スコア(独自算出の注目度): 31.34800444313487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-life scenarios require humans to make difficult trade-offs: do we
always follow all the traffic rules or do we violate the speed limit in an
emergency? These scenarios force us to evaluate the trade-off between
collective rules and norms with our own personal objectives and desires. To
create effective AI-human teams, we must equip AI agents with a model of how
humans make these trade-offs in complex environments when there are implicit
and explicit rules and constraints. Agent equipped with these models will be
able to mirror human behavior and/or to draw human attention to situations
where decision making could be improved. To this end, we propose a novel
inverse reinforcement learning (IRL) method: Max Entropy Inverse Soft
Constraint IRL (MESC-IRL), for learning implicit hard and soft constraints over
states, actions, and state features from demonstrations in deterministic and
non-deterministic environments modeled as Markov Decision Processes (MDPs). Our
method enables agents implicitly learn human constraints and desires without
the need for explicit modeling by the agent designer and to transfer these
constraints between environments. Our novel method generalizes prior work which
only considered deterministic hard constraints and achieves state of the art
performance.
- Abstract(参考訳): 現実のシナリオの多くは、人間が難しいトレードオフをしなければならない。私たちは常にすべての交通規則に従うのか、緊急時の速度制限に違反しているのか?
これらのシナリオは、集合的なルールと規範の間のトレードオフを、私たち自身の目的と欲求で評価させます。
効果的なAI-ヒューマンチームを作るには、暗黙的で明示的なルールや制約がある場合、複雑な環境でAIエージェントがこれらのトレードオフを行う方法のモデルを用意しなければなりません。
これらのモデルを備えたエージェントは、人間の行動を反映したり、意思決定を改善するような状況に人間の注意を引くことができる。
そこで本研究では,マルコフ決定過程(MDPs)をモデル化した決定論的および非決定論的環境における実演から,状態,行動,状態に関する暗黙的な厳密かつソフトな制約を学習するための,新しい逆強化学習法であるMax Entropy Inverse Soft Constraint IRL(MESC-IRL)を提案する。
本手法は,エージェント設計者による明示的なモデリングを必要とせず,人的制約や欲求を暗黙的に学習することを可能にする。
本手法は, 決定論的制約のみを考慮した先行作業の一般化と, 技術性能の向上を実現する。
関連論文リスト
- A Moral Imperative: The Need for Continual Superalignment of Large Language Models [1.0499611180329806]
スーパーアライメント(Superalignment)は、超知能AIシステムが人間の価値観や目標に応じて行動することを確実にする理論フレームワークである。
本稿では,AIシステム,特に大規模言語モデル(LLM)における生涯的スーパーアライメントの実現に関わる課題について検討する。
論文 参考訳(メタデータ) (2024-03-13T05:44:50Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Maximum Causal Entropy Inverse Constrained Reinforcement Learning [3.409089945290584]
本稿では,最大因果エントロピーの原理を用いて制約と最適ポリシーを学習する手法を提案する。
得られた報酬と制約違反数を評価することで,学習方針の有効性を評価する。
本手法は様々なタスクや環境にまたがって最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2023-05-04T14:18:19Z) - Making Human-Like Trade-offs in Constrained Environments by Learning
from Demonstrations [30.738257457765755]
本稿では,実証実験から暗黙の硬さと柔らかい制約を学習するための新しい逆強化学習法を提案する。
次に、制約学習法を用いて、競合する目的を編成する新しいシステムアーキテクチャを実装します。
提案するエージェントは,軌道長,違反した制約数,総報酬について評価し,エージェントアーキテクチャが汎用的かつ高い性能を示すことを示す。
論文 参考訳(メタデータ) (2021-09-22T20:12:01Z) - Generalizing Decision Making for Automated Driving with an Invariant
Environment Representation using Deep Reinforcement Learning [55.41644538483948]
現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。
本研究では,エゴ車の観点から不変環境表現を提案する。
この抽象化により,エージェントが未確認シナリオに対してうまく一般化できることが示される。
論文 参考訳(メタデータ) (2021-02-12T20:37:29Z) - Safe Reinforcement Learning with Natural Language Constraints [39.70152978025088]
我々は、安全なRLのための自然言語制約を解釈する学習を提案する。
HazardWorldは、フリーフォームテキストで指定された制約に違反することなく、報酬を最適化するエージェントを必要とする新しいマルチタスクベンチマークである。
提案手法は,既存手法と比較して,より高い報酬(最大11倍)と制約違反(最大1.8倍)を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-11T03:41:56Z) - Learning a Directional Soft Lane Affordance Model for Road Scenes Using
Self-Supervision [0.0]
人間は複雑な環境を組織的かつ柔軟な方法でナビゲートし、文脈や暗黙の社会ルールに適応する。
本研究は,人間が運転する可能性が最も高い地域を推定するために,確率論的ネットワークモデルを訓練するための新しい自己教師手法を提案する。
モデルは新たな道路シーンへの一般化に成功し、現実世界の応用の可能性を示すことが示されている。
論文 参考訳(メタデータ) (2020-02-17T00:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。