論文の概要: Simplified Temporal Consistency Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.09466v1
- Date: Thu, 15 Jun 2023 19:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 15:55:42.291244
- Title: Simplified Temporal Consistency Reinforcement Learning
- Title(参考訳): 簡易な時間一貫性強化学習
- Authors: Yi Zhao, Wenshuai Zhao, Rinu Boney, Juho Kannala, Joni Pajarinen
- Abstract要約: 本稿では,潜時整合性によって訓練された潜時力学モデルに依存する単純な表現学習手法が,高性能なRLには十分であることを示す。
提案手法は,モデルフリー手法を大きなマージンで上回り,モデルベース手法のサンプル効率を2.4倍高速にトレーニングしながら比較する。
- 参考スコア(独自算出の注目度): 19.814047499837084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning is able to solve complex sequential decision-making
tasks but is currently limited by sample efficiency and required computation.
To improve sample efficiency, recent work focuses on model-based RL which
interleaves model learning with planning. Recent methods further utilize policy
learning, value estimation, and, self-supervised learning as auxiliary
objectives. In this paper we show that, surprisingly, a simple representation
learning approach relying only on a latent dynamics model trained by latent
temporal consistency is sufficient for high-performance RL. This applies when
using pure planning with a dynamics model conditioned on the representation,
but, also when utilizing the representation as policy and value function
features in model-free RL. In experiments, our approach learns an accurate
dynamics model to solve challenging high-dimensional locomotion tasks with
online planners while being 4.1 times faster to train compared to
ensemble-based methods. With model-free RL without planning, especially on
high-dimensional tasks, such as the DeepMind Control Suite Humanoid and Dog
tasks, our approach outperforms model-free methods by a large margin and
matches model-based methods' sample efficiency while training 2.4 times faster.
- Abstract(参考訳): 強化学習は複雑なシーケンシャルな意思決定タスクを解決できるが、現在はサンプル効率と必要な計算量によって制限されている。
サンプル効率を向上させるため,最近の研究は,モデル学習と計画との相互関係を持つモデルベースRLに焦点を当てている。
近年の手法では,政策学習,価値推定,自己教師あり学習を補助目的として活用している。
本稿では,潜時整合性によって訓練された潜時力学モデルのみに依存する単純な表現学習手法が,高性能RLには十分であることを示す。
これは、表現に条件付けされた動的モデルによる純粋なプランニングを使用する場合だけでなく、モデルフリーRLにおけるポリシーと値関数として表現を利用する場合にも適用される。
実験では,オンラインプランナーによる高次元移動課題の解決を,アンサンブル法に比べて4.1倍高速に行うため,高精度なダイナミックスモデルを学習した。
計画のないモデルフリーRL,特にDeepMind Control Suite Humanoid や Dog タスクのような高次元タスクにおいて,本手法はモデルフリー手法を大きなマージンで上回り,モデルベース手法のサンプル効率を2.4倍高速化する。
関連論文リスト
- Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。
交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:16:57Z) - Physics-Informed Model and Hybrid Planning for Efficient Dyna-Style Reinforcement Learning [20.938465516348177]
実世界のアプリケーションに強化学習を適用するには、パフォーマンス、サンプル効率、推論時間の間のトレードオフに対処する必要がある。
本研究では,システム力学の部分的な物理知識を活用することで,この3つの課題に対処する方法を実証する。
論文 参考訳(メタデータ) (2024-07-02T12:32:57Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。