論文の概要: Informed POMDP: Leveraging Additional Information in Model-Based RL
- arxiv url: http://arxiv.org/abs/2306.11488v1
- Date: Tue, 20 Jun 2023 12:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:22:45.987411
- Title: Informed POMDP: Leveraging Additional Information in Model-Based RL
- Title(参考訳): informd pomdp: モデルベースのrlで追加情報を活用する
- Authors: Gaspard Lambrechts, Adrien Bolland, Damien Ernst
- Abstract要約: 我々は,POMDPにおけるインタラクションを通じて学習する問題を,トレーニング時に利用できる付加的な情報を考慮することで一般化する。
まず,訓練情報と実行観察とを明確に区別する新たな学習パラダイムである報知PMDPを紹介する。
- 参考スコア(独自算出の注目度): 3.4066110654930473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we generalize the problem of learning through interaction in a
POMDP by accounting for eventual additional information available at training
time. First, we introduce the informed POMDP, a new learning paradigm offering
a clear distinction between the training information and the execution
observation. Next, we propose an objective for learning a sufficient statistic
from the history for the optimal control that leverages this information. We
then show that this informed objective consists of learning an environment
model from which we can sample latent trajectories. Finally, we show for the
Dreamer algorithm that the convergence speed of the policies is sometimes
greatly improved on several environments by using this informed environment
model. Those results and the simplicity of the proposed adaptation advocate for
a systematic consideration of eventual additional information when learning in
a POMDP using model-based RL.
- Abstract(参考訳): 本研究では,POMDPにおけるインタラクションによる学習の問題を,トレーニング時に利用できる付加情報から一般化する。
まず,訓練情報と実行観察とを明確に区別する新たな学習パラダイムである情報PMDPを紹介する。
次に,この情報を活用する最適制御のために,歴史から十分な統計を学習する目的を提案する。
次に,このインフォームド・ターゲットが,潜在トラジェクタをサンプル化できる環境モデル学習から成り立っていることを示す。
最後に,このインフォメーション環境モデルを用いて,複数の環境においてポリシーの収束速度が大幅に改善されることをDreamerアルゴリズムで示す。
これらの結果と提案手法の単純さは,モデルベースrlを用いたpomdp学習における最終的な付加情報の体系的考察を示唆するものである。
関連論文リスト
- A Unified View on Solving Objective Mismatch in Model-Based Reinforcement Learning [10.154341066746975]
モデルベース強化学習(MBRL)は、エージェントをよりサンプリング効率、適応性、説明しやすいものにすることを目的としている。
モデルをどのように学習するかは、まだ未解決の問題である。
論文 参考訳(メタデータ) (2023-10-10T01:58:38Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Privileged Information Dropout in Reinforcement Learning [56.82218103971113]
トレーニング中に特権情報を使用することで、機械学習システムのサンプル効率とパフォーマンスを向上させることができる。
本研究では,価値に基づく強化学習アルゴリズムとポリシーに基づく強化学習アルゴリズムに等しく適用可能なプライヴィレグ情報ドロップアウト(pid)について検討する。
論文 参考訳(メタデータ) (2020-05-19T05:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。