論文の概要: Neuro-Symbolic World Models for Adapting to Open World Novelty
- arxiv url: http://arxiv.org/abs/2301.06294v1
- Date: Mon, 16 Jan 2023 07:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 16:28:09.654775
- Title: Neuro-Symbolic World Models for Adapting to Open World Novelty
- Title(参考訳): オープンワールドノベルティに適応するニューロシンボリック世界モデル
- Authors: Jonathan Balloch and Zhiyu Lin and Robert Wright and Xiangyu Peng and
Mustafa Hussain and Aarun Srinivas and Julia Kim and Mark O. Riedl
- Abstract要約: 早急なノベルティ適応のための、エンドツーエンドのトレーニング可能なニューロシンボリックワールドモデルであるWorldClonerを紹介する。
WorldClonerは、プレノベルティ環境遷移の効率的なシンボル表現を学ぶ。
WorldClonerは、想像力に基づく適応を使用してポリシー学習プロセスを強化する。
- 参考スコア(独自算出の注目度): 9.707805250772129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-world novelty--a sudden change in the mechanics or properties of an
environment--is a common occurrence in the real world. Novelty adaptation is an
agent's ability to improve its policy performance post-novelty. Most
reinforcement learning (RL) methods assume that the world is a closed, fixed
process. Consequentially, RL policies adapt inefficiently to novelties. To
address this, we introduce WorldCloner, an end-to-end trainable neuro-symbolic
world model for rapid novelty adaptation. WorldCloner learns an efficient
symbolic representation of the pre-novelty environment transitions, and uses
this transition model to detect novelty and efficiently adapt to novelty in a
single-shot fashion. Additionally, WorldCloner augments the policy learning
process using imagination-based adaptation, where the world model simulates
transitions of the post-novelty environment to help the policy adapt. By
blending ''imagined'' transitions with interactions in the post-novelty
environment, performance can be recovered with fewer total environment
interactions. Using environments designed for studying novelty in sequential
decision-making problems, we show that the symbolic world model helps its
neural policy adapt more efficiently than model-based and model-based
neural-only reinforcement learning methods.
- Abstract(参考訳): オープンワールドのノベルティ - 環境の力学や性質の突然の変化 - は現実世界でよくある現象である。
ノベルティ適応は、ノベルティ後のポリシーパフォーマンスを改善するエージェントの能力である。
ほとんどの強化学習(RL)法は、世界は閉じた、固定されたプロセスであると仮定する。
結果として、RLポリシーは新規性に非効率に適応する。
そこで本研究では,迅速な新規性適応のための,エンドツーエンドのトレーニング可能なニューロシンボリックワールドモデルであるWorldClonerを紹介する。
WorldClonerは、プレノベルティ環境遷移の効率的なシンボル表現を学び、この遷移モデルを使用して、新規性を検出し、単一ショット方式で新規性に適応する。
さらに、WorldClonerは、想像力に基づく適応を使用してポリシー学習プロセスを強化する。
ポストノベルティ環境における'虚像'遷移と相互作用をブレンドすることで、全体の環境相互作用を少なくして性能を回復することができる。
逐次的意思決定問題における新しさを研究するために設計された環境を用いて,シンボリックワールドモデルが,モデルベースおよびモデルベースニューラルネットワークのみの強化学習手法よりも,そのニューラルポリシーを効率的に適応させるのに役立つことを示す。
関連論文リスト
- Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。
我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:17:30Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - One-shot World Models Using a Transformer Trained on a Synthetic Prior [37.027893127637036]
ワンショット世界モデル(英: One-Shot World Model、OSWM)は、純粋に合成データからコンテキスト内学習形式で学習されるトランスフォーマー世界モデルである。
OSWMは、シンプルなグリッド世界のダイナミクスや、CartPoleのジム、カスタムコントロール環境に迅速に適応できる。
論文 参考訳(メタデータ) (2024-09-21T09:39:32Z) - Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models [19.05224410249602]
閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
論文 参考訳(メタデータ) (2024-05-30T09:34:31Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Novelty Detection in Reinforcement Learning with World Models [15.01731216883798]
世界モデルを用いた強化学習(RL)は近年大きな成功を収めている。
しかし、突然世界力学や性質が変化した場合、エージェントの性能と信頼性は劇的に低下する。
生成されたワールドモデルフレームワーク内での新規性検出の実装は、デプロイ時にエージェントを保護するための重要なタスクである。
論文 参考訳(メタデータ) (2023-10-12T21:38:07Z) - Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated
Open World [0.0]
ノベルティ(英: Novelty)は、環境のコア特性、組成、力学を変化させる予期せぬ現象である。
これまでの研究では、新規性はエージェントのパフォーマンスに破滅的な影響を及ぼすことが示されている。
本研究では、軍事領域の現実的な高忠実度シミュレータにおいて、ドメイン非依存のAIエージェントが、斬新な動作と推論を成功させるために適応できることを実証する。
論文 参考訳(メタデータ) (2023-06-22T03:44:04Z) - Learning to Operate in Open Worlds by Adapting Planning Models [12.513121330508477]
プランニングエージェントは、ドメインモデルがもはや正確に世界を表すことができない新しい状況で振る舞うことができない。
オープンな世界で活動するエージェントに対して,新規性の存在を検知し,ドメインモデルに効果的に適用するアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-24T21:04:16Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。
コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文 参考訳(メタデータ) (2023-03-06T18:59:09Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。