論文の概要: Novelty Detection in Reinforcement Learning with World Models
- arxiv url: http://arxiv.org/abs/2310.08731v2
- Date: Fri, 22 Mar 2024 16:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:40:07.997473
- Title: Novelty Detection in Reinforcement Learning with World Models
- Title(参考訳): 世界モデルを用いた強化学習における新規性検出
- Authors: Geigh Zollicoffer, Kenneth Eaton, Jonathan Balloch, Julia Kim, Mark O. Riedl, Robert Wright,
- Abstract要約: 世界モデルを用いた強化学習(RL)は近年大きな成功を収めている。
しかし、突然世界力学や性質が変化した場合、エージェントの性能と信頼性は劇的に低下する。
生成されたワールドモデルフレームワーク内での新規性検出の実装は、デプロイ時にエージェントを保護するための重要なタスクである。
- 参考スコア(独自算出の注目度): 15.01731216883798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) using world models has found significant recent successes. However, when a sudden change to world mechanics or properties occurs then agent performance and reliability can dramatically decline. We refer to the sudden change in visual properties or state transitions as novelties. Implementing novelty detection within generated world model frameworks is a crucial task for protecting the agent when deployed. In this paper, we propose straightforward bounding approaches to incorporate novelty detection into world model RL agents, by utilizing the misalignment of the world model's hallucinated states and the true observed states as an anomaly score. We provide effective approaches to detecting novelties in a distribution of transitions learned by an agent in a world model. Finally, we show the advantage of our work in a novel environment compared to traditional machine learning novelty detection methods as well as currently accepted RL focused novelty detection algorithms.
- Abstract(参考訳): 世界モデルを用いた強化学習(RL)は近年大きな成功を収めている。
しかし、突然世界力学や性質が変化した場合、エージェントの性能と信頼性は劇的に低下する。
視覚特性や状態遷移の急激な変化を、新しいものとして言及する。
生成されたワールドモデルフレームワーク内での新規性検出の実装は、デプロイ時にエージェントを保護するための重要なタスクである。
本稿では,世界模型の幻覚状態と真の観測状態の誤配を異常スコアとして利用することにより,新規性検出を世界モデルRLエージェントに組み込むための単純なバウンダリング手法を提案する。
エージェントが世界モデルで学習した遷移の分布における新規性の検出に有効なアプローチを提案する。
最後に、従来の機械学習ノベルティ検出法や、現在受け入れられているRLに着目したノベルティ検出アルゴリズムと比較して、新しい環境における我々の研究の利点を示す。
関連論文リスト
- Federated Continual Novel Class Learning [68.05835753892907]
本稿では,グローバルな新規クラス数を正確に推定できるグローバルアライメント学習フレームワークを提案する。
Galは新規クラスの性能を大幅に改善し、精度は5.1%から10.6%に向上した。
Galは、様々な主流のフェデレートラーニングアルゴリズムに新しいクラス発見と学習能力を持たせるのに効果的であることが示されている。
論文 参考訳(メタデータ) (2023-12-21T00:31:54Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Detecting and Learning Out-of-Distribution Data in the Open world:
Algorithm and Theory [15.875140867859209]
この論文は、特にオープンワールドシナリオのコンテキストにおいて、機械学習の領域に貢献する。
オープンワールド機械学習に不可欠な2つの段階:アウト・オブ・ディストリビューション(OOD)検出とオープンワールド表現学習(ORL)
論文 参考訳(メタデータ) (2023-10-10T00:25:21Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - Learning to Operate in Open Worlds by Adapting Planning Models [12.513121330508477]
プランニングエージェントは、ドメインモデルがもはや正確に世界を表すことができない新しい状況で振る舞うことができない。
オープンな世界で活動するエージェントに対して,新規性の存在を検知し,ドメインモデルに効果的に適用するアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-24T21:04:16Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Investigating the role of model-based learning in exploration and
transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-02-08T11:49:58Z) - Neuro-Symbolic World Models for Adapting to Open World Novelty [9.707805250772129]
早急なノベルティ適応のための、エンドツーエンドのトレーニング可能なニューロシンボリックワールドモデルであるWorldClonerを紹介する。
WorldClonerは、プレノベルティ環境遷移の効率的なシンボル表現を学ぶ。
WorldClonerは、想像力に基づく適応を使用してポリシー学習プロセスを強化する。
論文 参考訳(メタデータ) (2023-01-16T07:49:12Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Federated and Generalized Person Re-identification through Domain and
Feature Hallucinating [88.77196261300699]
人物再識別(re-ID)におけるフェデレーションドメイン一般化(FedDG)の問題について検討する。
一般化された局所的・グローバルなモデルを学ぶための多様な特徴を創出する手法として,DFH (Domain and Feature Hallucinating) を提案する。
提案手法は4つの大規模re-IDベンチマークにおいてFedDGの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-05T09:15:13Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。