論文の概要: Informed POMDP: Leveraging Additional Information in Model-Based RL
- arxiv url: http://arxiv.org/abs/2306.11488v1
- Date: Tue, 20 Jun 2023 12:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:22:45.987411
- Title: Informed POMDP: Leveraging Additional Information in Model-Based RL
- Title(参考訳): informd pomdp: モデルベースのrlで追加情報を活用する
- Authors: Gaspard Lambrechts, Adrien Bolland, Damien Ernst
- Abstract要約: 我々は,POMDPにおけるインタラクションを通じて学習する問題を,トレーニング時に利用できる付加的な情報を考慮することで一般化する。
まず,訓練情報と実行観察とを明確に区別する新たな学習パラダイムである報知PMDPを紹介する。
- 参考スコア(独自算出の注目度): 3.4066110654930473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we generalize the problem of learning through interaction in a
POMDP by accounting for eventual additional information available at training
time. First, we introduce the informed POMDP, a new learning paradigm offering
a clear distinction between the training information and the execution
observation. Next, we propose an objective for learning a sufficient statistic
from the history for the optimal control that leverages this information. We
then show that this informed objective consists of learning an environment
model from which we can sample latent trajectories. Finally, we show for the
Dreamer algorithm that the convergence speed of the policies is sometimes
greatly improved on several environments by using this informed environment
model. Those results and the simplicity of the proposed adaptation advocate for
a systematic consideration of eventual additional information when learning in
a POMDP using model-based RL.
- Abstract(参考訳): 本研究では,POMDPにおけるインタラクションによる学習の問題を,トレーニング時に利用できる付加情報から一般化する。
まず,訓練情報と実行観察とを明確に区別する新たな学習パラダイムである情報PMDPを紹介する。
次に,この情報を活用する最適制御のために,歴史から十分な統計を学習する目的を提案する。
次に,このインフォームド・ターゲットが,潜在トラジェクタをサンプル化できる環境モデル学習から成り立っていることを示す。
最後に,このインフォメーション環境モデルを用いて,複数の環境においてポリシーの収束速度が大幅に改善されることをDreamerアルゴリズムで示す。
これらの結果と提案手法の単純さは,モデルベースrlを用いたpomdp学習における最終的な付加情報の体系的考察を示唆するものである。
関連論文リスト
- Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Reinforcement Learning with Partial Parametric Model Knowledge [3.3598755777055374]
我々は,環境の完全無知と完全知識のギャップを埋めるために,継続的制御のための強化学習手法を適用した。
本手法は,モデルフリーRLとモデルベース制御の両方からインスピレーションを得て,PLSPI(Partial Knowledge Least Squares Policy Iteration)を提案する。
論文 参考訳(メタデータ) (2023-04-26T01:04:35Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Privileged Information Dropout in Reinforcement Learning [56.82218103971113]
トレーニング中に特権情報を使用することで、機械学習システムのサンプル効率とパフォーマンスを向上させることができる。
本研究では,価値に基づく強化学習アルゴリズムとポリシーに基づく強化学習アルゴリズムに等しく適用可能なプライヴィレグ情報ドロップアウト(pid)について検討する。
論文 参考訳(メタデータ) (2020-05-19T05:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。