論文の概要: Making Human-Like Trade-offs in Constrained Environments by Learning
from Demonstrations
- arxiv url: http://arxiv.org/abs/2109.11018v1
- Date: Wed, 22 Sep 2021 20:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-25 03:07:47.845397
- Title: Making Human-Like Trade-offs in Constrained Environments by Learning
from Demonstrations
- Title(参考訳): 実演から学ぶ制約環境におけるヒューマンライクなトレードオフ
- Authors: Arie Glazier, Andrea Loreggia, Nicholas Mattei, Taher Rahgooy,
Francesca Rossi, K. Brent Venable
- Abstract要約: 本稿では,実証実験から暗黙の硬さと柔らかい制約を学習するための新しい逆強化学習法を提案する。
次に、制約学習法を用いて、競合する目的を編成する新しいシステムアーキテクチャを実装します。
提案するエージェントは,軌道長,違反した制約数,総報酬について評価し,エージェントアーキテクチャが汎用的かつ高い性能を示すことを示す。
- 参考スコア(独自算出の注目度): 30.738257457765755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-life scenarios require humans to make difficult trade-offs: do we
always follow all the traffic rules or do we violate the speed limit in an
emergency? These scenarios force us to evaluate the trade-off between
collective norms and our own personal objectives. To create effective AI-human
teams, we must equip AI agents with a model of how humans make trade-offs in
complex, constrained environments. These agents will be able to mirror human
behavior or to draw human attention to situations where decision making could
be improved. To this end, we propose a novel inverse reinforcement learning
(IRL) method for learning implicit hard and soft constraints from
demonstrations, enabling agents to quickly adapt to new settings. In addition,
learning soft constraints over states, actions, and state features allows
agents to transfer this knowledge to new domains that share similar aspects. We
then use the constraint learning method to implement a novel system
architecture that leverages a cognitive model of human decision making,
multi-alternative decision field theory (MDFT), to orchestrate competing
objectives. We evaluate the resulting agent on trajectory length, number of
violated constraints, and total reward, demonstrating that our agent
architecture is both general and achieves strong performance. Thus we are able
to capture and replicate human-like trade-offs from demonstrations in
environments when constraints are not explicit.
- Abstract(参考訳): 現実のシナリオの多くは、人間が難しいトレードオフをしなければならない。私たちは常にすべての交通規則に従うのか、緊急時の速度制限に違反しているのか?
これらのシナリオでは、集団規範と私たち自身の目的とのトレードオフを評価する必要があります。
効果的なAI-ヒューマンチームを作るには、複雑な制約のある環境で人間がトレードオフをする方法のモデルにAIエージェントを配置する必要があります。
これらのエージェントは人間の行動を反映したり、意思決定を改善できる状況に人間の注意を引き付けることができる。
そこで本研究では,実演から暗黙のハードとソフトの制約を学習し,エージェントが新しい設定に迅速に適応できるようにする新しい逆強化学習(irl)手法を提案する。
さらに、状態、アクション、状態機能に対するソフトな制約を学ぶことで、エージェントはこの知識を同様の側面を共有する新しいドメインに転送することができる。
次に、制約学習法を用いて、人間の意思決定の認知モデル、多変量決定場理論(MDFT)を活用して、競合する目的を編成する新しいシステムアーキテクチャを実装する。
提案するエージェントは,軌道長,違反した制約数,総報酬について評価し,エージェントアーキテクチャが汎用的かつ高い性能を示すことを示す。
したがって、制約が明示的でない環境でのデモから人間のようなトレードオフをキャプチャし、複製することができます。
関連論文リスト
- A Moral Imperative: The Need for Continual Superalignment of Large Language Models [1.0499611180329806]
スーパーアライメント(Superalignment)は、超知能AIシステムが人間の価値観や目標に応じて行動することを確実にする理論フレームワークである。
本稿では,AIシステム,特に大規模言語モデル(LLM)における生涯的スーパーアライメントの実現に関わる課題について検討する。
論文 参考訳(メタデータ) (2024-03-13T05:44:50Z) - Reinforcement Learning Interventions on Boundedly Rational Human Agents
in Frictionful Tasks [25.507656595628376]
本稿では,AIエージェントがマルコフ決定プロセス(MDP)のパラメータに介入する枠組みを紹介する。
私たちは、人間のモデルによるAI計画が、より複雑で地道な人間の幅広い政策に結びつくことを示しています。
論文 参考訳(メタデータ) (2024-01-26T14:59:48Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文 参考訳(メタデータ) (2023-08-14T23:45:01Z) - Learning Behavioral Soft Constraints from Demonstrations [31.34800444313487]
本稿では,状態,行動,状態特徴に対する暗黙の厳密な制約を学習するための新しい逆強化学習法を提案する。
本手法は,エージェント設計者による明示的なモデリングを必要とせず,人的制約や欲求を暗黙的に学習することを可能にする。
論文 参考訳(メタデータ) (2022-02-21T18:09:56Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Safe Reinforcement Learning with Natural Language Constraints [39.70152978025088]
我々は、安全なRLのための自然言語制約を解釈する学習を提案する。
HazardWorldは、フリーフォームテキストで指定された制約に違反することなく、報酬を最適化するエージェントを必要とする新しいマルチタスクベンチマークである。
提案手法は,既存手法と比較して,より高い報酬(最大11倍)と制約違反(最大1.8倍)を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-11T03:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。