論文の概要: Neuro-Symbolic World Models for Adapting to Open World Novelty
- arxiv url: http://arxiv.org/abs/2301.06294v1
- Date: Mon, 16 Jan 2023 07:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 16:28:09.654775
- Title: Neuro-Symbolic World Models for Adapting to Open World Novelty
- Title(参考訳): オープンワールドノベルティに適応するニューロシンボリック世界モデル
- Authors: Jonathan Balloch and Zhiyu Lin and Robert Wright and Xiangyu Peng and
Mustafa Hussain and Aarun Srinivas and Julia Kim and Mark O. Riedl
- Abstract要約: 早急なノベルティ適応のための、エンドツーエンドのトレーニング可能なニューロシンボリックワールドモデルであるWorldClonerを紹介する。
WorldClonerは、プレノベルティ環境遷移の効率的なシンボル表現を学ぶ。
WorldClonerは、想像力に基づく適応を使用してポリシー学習プロセスを強化する。
- 参考スコア(独自算出の注目度): 9.707805250772129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-world novelty--a sudden change in the mechanics or properties of an
environment--is a common occurrence in the real world. Novelty adaptation is an
agent's ability to improve its policy performance post-novelty. Most
reinforcement learning (RL) methods assume that the world is a closed, fixed
process. Consequentially, RL policies adapt inefficiently to novelties. To
address this, we introduce WorldCloner, an end-to-end trainable neuro-symbolic
world model for rapid novelty adaptation. WorldCloner learns an efficient
symbolic representation of the pre-novelty environment transitions, and uses
this transition model to detect novelty and efficiently adapt to novelty in a
single-shot fashion. Additionally, WorldCloner augments the policy learning
process using imagination-based adaptation, where the world model simulates
transitions of the post-novelty environment to help the policy adapt. By
blending ''imagined'' transitions with interactions in the post-novelty
environment, performance can be recovered with fewer total environment
interactions. Using environments designed for studying novelty in sequential
decision-making problems, we show that the symbolic world model helps its
neural policy adapt more efficiently than model-based and model-based
neural-only reinforcement learning methods.
- Abstract(参考訳): オープンワールドのノベルティ - 環境の力学や性質の突然の変化 - は現実世界でよくある現象である。
ノベルティ適応は、ノベルティ後のポリシーパフォーマンスを改善するエージェントの能力である。
ほとんどの強化学習(RL)法は、世界は閉じた、固定されたプロセスであると仮定する。
結果として、RLポリシーは新規性に非効率に適応する。
そこで本研究では,迅速な新規性適応のための,エンドツーエンドのトレーニング可能なニューロシンボリックワールドモデルであるWorldClonerを紹介する。
WorldClonerは、プレノベルティ環境遷移の効率的なシンボル表現を学び、この遷移モデルを使用して、新規性を検出し、単一ショット方式で新規性に適応する。
さらに、WorldClonerは、想像力に基づく適応を使用してポリシー学習プロセスを強化する。
ポストノベルティ環境における'虚像'遷移と相互作用をブレンドすることで、全体の環境相互作用を少なくして性能を回復することができる。
逐次的意思決定問題における新しさを研究するために設計された環境を用いて,シンボリックワールドモデルが,モデルベースおよびモデルベースニューラルネットワークのみの強化学習手法よりも,そのニューラルポリシーを効率的に適応させるのに役立つことを示す。
関連論文リスト
- Adaptive Global-Local Representation Learning and Selection for
Cross-Domain Facial Expression Recognition [54.334773598942775]
ドメインシフトは、クロスドメイン顔表情認識(CD-FER)において重要な課題となる
適応的グローバルローカル表現学習・選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T02:21:41Z) - Federated Continual Novel Class Learning [68.05835753892907]
本稿では,グローバルな新規クラス数を正確に推定できるグローバルアライメント学習フレームワークを提案する。
Galは新規クラスの性能を大幅に改善し、精度は5.1%から10.6%に向上した。
Galは、様々な主流のフェデレートラーニングアルゴリズムに新しいクラス発見と学習能力を持たせるのに効果的であることが示されている。
論文 参考訳(メタデータ) (2023-12-21T00:31:54Z) - A Simple Way to Incorporate Novelty Detection in World Models [15.91258156780494]
世界モデルを用いた強化学習(RL)は近年大きな成功を収めている。
しかし、突然世界力学や性質が変化した場合、エージェントの性能と信頼性は劇的に低下する。
本稿では,世界モデルRLエージェントにノベルティ検出を組み込むための単純なバウンディング手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T21:38:07Z) - Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated
Open World [0.0]
ノベルティ(英: Novelty)は、環境のコア特性、組成、力学を変化させる予期せぬ現象である。
これまでの研究では、新規性はエージェントのパフォーマンスに破滅的な影響を及ぼすことが示されている。
本研究では、軍事領域の現実的な高忠実度シミュレータにおいて、ドメイン非依存のAIエージェントが、斬新な動作と推論を成功させるために適応できることを実証する。
論文 参考訳(メタデータ) (2023-06-22T03:44:04Z) - Learning to Operate in Open Worlds by Adapting Planning Models [12.513121330508477]
プランニングエージェントは、ドメインモデルがもはや正確に世界を表すことができない新しい状況で振る舞うことができない。
オープンな世界で活動するエージェントに対して,新規性の存在を検知し,ドメインモデルに効果的に適用するアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-24T21:04:16Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。
コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文 参考訳(メタデータ) (2023-03-06T18:59:09Z) - NovGrid: A Flexible Grid World for Evaluating Agent Response to Novelty [8.705624336757461]
我々はMiniGrid上に構築されたノベルティ生成フレームワークであるNovGridを紹介する。
コアであるNovGridとともに、オントロジーと整合した模範的なノベルティを提供し、ノベルティテンプレートとしてインスタンス化する。
本稿では,新しい適応型機械学習技術の評価のために,フレームワークに組み込まれた指標について述べる。
論文 参考訳(メタデータ) (2022-03-23T01:06:04Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。