論文の概要: Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.13303v1
- Date: Mon, 26 Oct 2020 03:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:32:08.202070
- Title: Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning
- Title(参考訳): 強化学習におけるダイナミクス一般化のための軌道回り多重選択学習
- Authors: Younggyo Seo, Kimin Lee, Ignasi Clavera, Thanard Kurutach, Jinwoo
Shin, Pieter Abbeel
- Abstract要約: 本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
- 参考スコア(独自算出の注目度): 137.39196753245105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (RL) has shown great potential in various
control tasks in terms of both sample-efficiency and final performance.
However, learning a generalizable dynamics model robust to changes in dynamics
remains a challenge since the target transition dynamics follow a multi-modal
distribution. In this paper, we present a new model-based RL algorithm, coined
trajectory-wise multiple choice learning, that learns a multi-headed dynamics
model for dynamics generalization. The main idea is updating the most accurate
prediction head to specialize each head in certain environments with similar
dynamics, i.e., clustering environments. Moreover, we incorporate context
learning, which encodes dynamics-specific information from past experiences
into the context latent vector, enabling the model to perform online adaptation
to unseen environments. Finally, to utilize the specialized prediction heads
more effectively, we propose an adaptive planning method, which selects the
most accurate prediction head over a recent experience. Our method exhibits
superior zero-shot generalization performance across a variety of control
tasks, compared to state-of-the-art RL methods. Source code and videos are
available at https://sites.google.com/view/trajectory-mcl.
- Abstract(参考訳): モデルベース強化学習(RL)は、サンプル効率と最終性能の両方の観点から、様々な制御タスクにおいて大きな可能性を示している。
しかしながら、対象遷移ダイナミクスがマルチモーダル分布に従うため、ダイナミクスの変化に頑健な一般化可能なダイナミクスモデルを学ぶことは依然として課題である。
本稿では,モデルに基づく新しいRLアルゴリズムであるトラジェクトリワイド多重選択学習を提案し,動的一般化のためのマルチヘッド動的モデルについて学習する。
主なアイデアは、クラスタリング環境のようなダイナミックな環境で各ヘッドを専門化するために、最も正確な予測ヘッドを更新することである。
さらに,過去の経験から得られるダイナミクス特有の情報をエンコードしたコンテキスト学習をコンテキスト潜在ベクトルに組み込むことにより,非知覚環境へのオンライン適応を実現する。
最後に,この特殊予測ヘッドをより効果的に活用するために,最近の経験から最も正確な予測ヘッドを選択する適応計画法を提案する。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
ソースコードとビデオはhttps://sites.google.com/view/trajectory-mclで入手できる。
関連論文リスト
- Adaptive Prediction Ensemble: Improving Out-of-Distribution Generalization of Motion Forecasting [15.916325272109454]
本稿では,ディープラーニングとルールに基づく予測専門家を統合した新しいフレームワーク,Adaptive Prediction Ensemble (APE)を提案する。
ディープラーニングモデルと並行して訓練された学習ルーティング関数は、入力シナリオに基づいて、最も信頼性の高い予測を動的に選択する。
この研究は、自律運転における頑健で一般化可能な運動予測のためのハイブリッドアプローチの可能性を強調している。
論文 参考訳(メタデータ) (2024-07-12T17:57:00Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - PASTA: Pretrained Action-State Transformer Agents [10.654719072766495]
自己教師型学習は、様々なコンピューティング領域において革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータに基づいて、トランスフォーマーモデルを事前訓練する。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
論文 参考訳(メタデータ) (2023-07-20T15:09:06Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - DyNODE: Neural Ordinary Differential Equations for Dynamics Modeling in
Continuous Control [0.0]
本稿では,ニューラル常微分方程式の枠組みに制御を組み込むことにより,システムの基盤となる力学を捉える新しい手法を提案する。
以上の結果から,アクター批判強化学習アルゴリズムと組み合わせた単純なDyNODEアーキテクチャが,標準ニューラルネットワークより優れていることが示唆された。
論文 参考訳(メタデータ) (2020-09-09T12:56:58Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。