論文の概要: Learning to Operate in Open Worlds by Adapting Planning Models
- arxiv url: http://arxiv.org/abs/2303.14272v1
- Date: Fri, 24 Mar 2023 21:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:56:23.926187
- Title: Learning to Operate in Open Worlds by Adapting Planning Models
- Title(参考訳): プランニングモデルの適用によるオープンワールドでの運用の学習
- Authors: Wiktor Piotrowski and Roni Stern and Yoni Sher and Jacob Le and
Matthew Klenk and Johan deKleer and Shiwali Mohan
- Abstract要約: プランニングエージェントは、ドメインモデルがもはや正確に世界を表すことができない新しい状況で振る舞うことができない。
オープンな世界で活動するエージェントに対して,新規性の存在を検知し,ドメインモデルに効果的に適用するアプローチを提案する。
- 参考スコア(独自算出の注目度): 12.513121330508477
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Planning agents are ill-equipped to act in novel situations in which their
domain model no longer accurately represents the world. We introduce an
approach for such agents operating in open worlds that detects the presence of
novelties and effectively adapts their domain models and consequent action
selection. It uses observations of action execution and measures their
divergence from what is expected, according to the environment model, to infer
existence of a novelty. Then, it revises the model through a heuristics-guided
search over model changes. We report empirical evaluations on the CartPole
problem, a standard Reinforcement Learning (RL) benchmark. The results show
that our approach can deal with a class of novelties very quickly and in an
interpretable fashion.
- Abstract(参考訳): プランニングエージェントは、ドメインモデルがもはや世界を正確に表現していない新しい状況で振る舞うことができない。
オープンな世界で活動するエージェントに対して,新規性の存在を検知し,ドメインモデルやアクション選択を効果的に適用するアプローチを提案する。
行動の実行を観察し、環境モデルによって期待されるものとの相違を計測し、ノベルティの存在を推測する。
そして、モデル変更に対するヒューリスティックスガイダンスによる探索を通じてモデルを改訂する。
標準強化学習(rl)ベンチマークであるcartopole問題に関する経験的評価を報告する。
その結果,本手法は極めて迅速かつ解釈可能な方法で新規性に対処できることがわかった。
関連論文リスト
- SPARTAN: A Sparse Transformer Learning Local Causation [63.29645501232935]
因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。
本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。
オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
論文 参考訳(メタデータ) (2024-11-11T11:42:48Z) - Adaptive World Models: Learning Behaviors by Latent Imagination Under Non-Stationarity [16.15952351162363]
私たちは新しいフォーマリズム、Hiddenを紹介します。
POMDP - 適応的な世界モデルで制御するために設計された。
提案手法は, 様々な非定常RLベンチマークにおけるロバストな動作の学習を可能にすることを実証する。
論文 参考訳(メタデータ) (2024-11-02T19:09:56Z) - Partial Models for Building Adaptive Model-Based Reinforcement Learning Agents [37.604622216020765]
部分モデルの概念的にシンプルなアイデアにより、深層モデルに基づくエージェントがこの課題を克服できることを示す。
我々は、ディープダイナQ、PlaNet、Dreamerなどのエージェントで部分モデルを使用することで、環境の局所的な変化に効果的に適応できることを示す。
論文 参考訳(メタデータ) (2024-05-27T07:46:36Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Novelty Detection in Reinforcement Learning with World Models [15.01731216883798]
世界モデルを用いた強化学習(RL)は近年大きな成功を収めている。
しかし、突然世界力学や性質が変化した場合、エージェントの性能と信頼性は劇的に低下する。
生成されたワールドモデルフレームワーク内での新規性検出の実装は、デプロイ時にエージェントを保護するための重要なタスクである。
論文 参考訳(メタデータ) (2023-10-12T21:38:07Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Investigating the role of model-based learning in exploration and
transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-02-08T11:49:58Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。