論文の概要: RAPid-Learn: A Framework for Learning to Recover for Handling Novelties
in Open-World Environments
- arxiv url: http://arxiv.org/abs/2206.12493v1
- Date: Fri, 24 Jun 2022 21:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 13:22:02.432655
- Title: RAPid-Learn: A Framework for Learning to Recover for Handling Novelties
in Open-World Environments
- Title(参考訳): RAPid-Learn: オープンワールド環境における新規処理の学習フレームワーク
- Authors: Shivam Goel, Yash Shukla, Vasanth Sarathy, Matthias Scheutz, Jivko
Sinapov
- Abstract要約: RAPid-Learn はタスクの Markov Decision Process (MDPs) をオンザフライで修正し、解決するように設計されている。
環境変化によって引き起こされる新しいダイナミクスを学ぶために、ドメイン知識を活用することができる。
Minecraftにインスパイアされたグリッドワールド環境において,多種多様なノベルティを導入することで,その効果を実証する。
- 参考スコア(独自算出の注目度): 17.73296831597868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose RAPid-Learn: Learning to Recover and Plan Again, a hybrid planning
and learning method, to tackle the problem of adapting to sudden and unexpected
changes in an agent's environment (i.e., novelties). RAPid-Learn is designed to
formulate and solve modifications to a task's Markov Decision Process (MDPs)
on-the-fly and is capable of exploiting domain knowledge to learn any new
dynamics caused by the environmental changes. It is capable of exploiting the
domain knowledge to learn action executors which can be further used to resolve
execution impasses, leading to a successful plan execution. This novelty
information is reflected in its updated domain model. We demonstrate its
efficacy by introducing a wide variety of novelties in a gridworld environment
inspired by Minecraft, and compare our algorithm with transfer learning
baselines from the literature. Our method is (1) effective even in the presence
of multiple novelties, (2) more sample efficient than transfer learning RL
baselines, and (3) robust to incomplete model information, as opposed to pure
symbolic planning approaches.
- Abstract(参考訳): エージェントの環境(すなわちノベルティ)における突然の予期せぬ変化に適応する問題に取り組むため,ハイブリッドな計画学習手法である「リカバリ・プランニング」を提案する。
RAPid-Learnは、タスクのMarkov Decision Process(MDP)をオンザフライで修正し、解決するために設計されており、ドメイン知識を利用して環境変化に起因する新しいダイナミクスを学習することができる。
ドメイン知識を利用してアクションエグゼキュータを学習し、さらに実行の障害を解決するために使用できるため、計画の実行が成功する。
この新しい情報は、更新されたドメインモデルに反映される。
Minecraftにインスパイアされたグリッドワールド環境において,多種多様なノベルティを導入することで,その効果を実証し,本手法を文献からの移動学習ベースラインと比較した。
提案手法は,(1)複数の新奇性の存在下においても有効であり,(2)移動学習RLベースラインよりも効率的なサンプル,(3)純粋な記号的計画手法とは対照的に不完全なモデル情報に対して頑健である。
関連論文リスト
- ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI [44.77897322913095]
エンボディエージェントのためのテキスト内強化学習のための新しい手法であるReLICを提案する。
Relicでは、エージェントは64,000ステップのコンテキスト内エクスペリエンスを使用して、新しい環境に適応することができる。
Relicは、専門家によるデモンストレーションでトレーニングを受けなくても、数発の模倣学習が可能であることに気付きました。
論文 参考訳(メタデータ) (2024-10-03T17:58:11Z) - Subspace Distillation for Continual Learning [27.22147868163214]
本稿では,ニューラルネットワークの多様体構造を考慮した知識蒸留手法を提案する。
部分空間を用いたモデリングは、雑音に対するロバスト性など、いくつかの興味深い特性を提供することを示した。
実験により,提案手法は,いくつかの挑戦的データセットにおいて,様々な連続学習法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-07-31T05:59:09Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Domain Adapting Speech Emotion Recognition modals to real-world scenario
with Deep Reinforcement Learning [5.40755576668989]
ドメイン適応により、トレーニングのフェーズ後に、モデルによって学習された知識をドメイン間で転送することができる。
より新しいドメインに事前学習モデルを適用するための深層強化学習に基づく戦略を提案する。
論文 参考訳(メタデータ) (2022-07-07T02:53:39Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - Creativity of AI: Hierarchical Planning Model Learning for Facilitating
Deep Reinforcement Learning [19.470693909025798]
シンボリックオプションを備えた新しい深層強化学習フレームワークを導入する。
当社のフレームワークは,政策改善の指針となるループトレーニングを特徴としている。
我々はモンテズマのRevengeとOffice Worldの2つの領域でそれぞれ実験を行っている。
論文 参考訳(メタデータ) (2021-12-18T03:45:28Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Delta Schema Network in Model-based Reinforcement Learning [125.99533416395765]
この研究は、伝達学習の非効率性である人工知能の未解決問題に焦点が当てられている。
環境データからオブジェクトとアクション間の論理的関係を抽出できるスキーマネットワーク手法を拡張している。
本稿では,デルタネットワーク(DSN)をトレーニングし,環境の将来状態を予測し,前向きな報酬をもたらす計画行動を示すアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T15:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。