論文の概要: Epistemic Exploration for Generalizable Planning and Learning in
Non-Stationary Settings
- arxiv url: http://arxiv.org/abs/2402.08145v1
- Date: Tue, 13 Feb 2024 00:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 16:53:12.950637
- Title: Epistemic Exploration for Generalizable Planning and Learning in
Non-Stationary Settings
- Title(参考訳): 非定常環境における一般化可能な計画と学習のための疫学探査
- Authors: Rushang Karia, Pulkit Verma, Alberto Speranzon, Siddharth Srivastava
- Abstract要約: 本稿では,非定常環境における継続計画とモデル学習のための新しいアプローチを提案する。
提案したフレームワークは、エージェントの現在の知識状態のギャップをモデル化し、焦点を絞った調査を行うためにそれらを使用する。
いくつかのベンチマーク領域での実証的な評価は、このアプローチがサンプルの複雑さの観点からプランニングとRLベースラインを著しく上回っていることを示している。
- 参考スコア(独自算出の注目度): 25.167564281116032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a new approach for continual planning and model
learning in non-stationary stochastic environments expressed using relational
representations. Such capabilities are essential for the deployment of
sequential decision-making systems in the uncertain, constantly evolving real
world. Working in such practical settings with unknown (and non-stationary)
transition systems and changing tasks, the proposed framework models gaps in
the agent's current state of knowledge and uses them to conduct focused,
investigative explorations. Data collected using these explorations is used for
learning generalizable probabilistic models for solving the current task
despite continual changes in the environment dynamics. Empirical evaluations on
several benchmark domains show that this approach significantly outperforms
planning and RL baselines in terms of sample complexity in non-stationary
settings. Theoretical results show that the system reverts to exhibit desirable
convergence properties when stationarity holds.
- Abstract(参考訳): 本稿では,関係表現を用いた非定常確率環境における連続計画とモデル学習のための新しいアプローチを提案する。
このような能力は、不確実で絶え間なく進化する現実世界におけるシーケンシャルな意思決定システムの展開に不可欠である。
未知の(そして非定常的な)遷移システムやタスクの変更でこのような実践的な環境で作業し、提案されたフレームワークはエージェントの現在の知識状態のギャップをモデル化し、焦点を絞った調査を行う。
これらの探索を用いて収集されたデータは、環境力学の継続的な変化にもかかわらず、現在のタスクを解決するための一般化可能な確率モデルを学ぶために使用される。
いくつかのベンチマークドメインにおける経験的評価は、このアプローチが非定常設定のサンプル複雑性の観点から、計画およびrlベースラインを大きく上回っていることを示している。
理論的には、システムは定常性が保たれたときに望ましい収束特性を示すように反転する。
関連論文リスト
- Adaptive World Models: Learning Behaviors by Latent Imagination Under Non-Stationarity [16.15952351162363]
私たちは新しいフォーマリズム、Hiddenを紹介します。
POMDP - 適応的な世界モデルで制御するために設計された。
提案手法は, 様々な非定常RLベンチマークにおけるロバストな動作の学習を可能にすることを実証する。
論文 参考訳(メタデータ) (2024-11-02T19:09:56Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - Meta-Gradient Search Control: A Method for Improving the Efficiency of Dyna-style Planning [8.552540426753]
本稿では,Dynaスタイルのプランニング中に状態がクエリされる確率を調整可能な,オンラインのメタグラディエントアルゴリズムを提案する。
その結果,提案手法は計画プロセスの効率化を図っている。
論文 参考訳(メタデータ) (2024-06-27T22:24:46Z) - Learning World Models with Identifiable Factorization [39.767120163665574]
我々は、遅延状態変数の4つの異なるカテゴリをモデル化するために、IFactorを提案する。
我々の分析は、これらの潜伏変数のブロックワイド識別性を確立する。
本稿では,ブロックを識別して世界モデルを学習するための実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-11T02:25:15Z) - Quantifying and Explaining Machine Learning Uncertainty in Predictive
Process Monitoring: An Operations Research Perspective [0.0]
本稿では,情報システムと人工知能を統合した総合的多段階機械学習手法を提案する。
提案したフレームワークは、データ駆動推定の無視など、既存のソリューションの共通的な制限を十分に解決する。
本手法では,Shapley Additive Explanationsの局所的およびグローバル的変異とともに,時間間隔予測を生成するために,Quantile Regression Forestsを用いている。
論文 参考訳(メタデータ) (2023-04-13T11:18:22Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z) - LEADS: Learning Dynamical Systems that Generalize Across Environments [12.024388048406587]
我々は、モデル一般化を改善するために、既知の環境間の共通点と相違点を活用する新しいフレームワークであるLEADSを提案する。
環境に依存したデータから抽出した知識を活用でき、既知の環境と新しい環境の両方の一般化を向上できることを示す。
論文 参考訳(メタデータ) (2021-06-08T17:28:19Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - From Simulation to Real World Maneuver Execution using Deep
Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。
これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。
本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文 参考訳(メタデータ) (2020-05-13T14:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。