論文の概要: Model-Based Reinforcement Learning with Isolated Imaginations
- arxiv url: http://arxiv.org/abs/2303.14889v2
- Date: Fri, 17 Nov 2023 11:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 20:15:28.884469
- Title: Model-Based Reinforcement Learning with Isolated Imaginations
- Title(参考訳): 孤立した想像力を持つモデルベース強化学習
- Authors: Minting Pan and Xiangming Zhu and Yitao Zheng and Yunbo Wang and
Xiaokang Yang
- Abstract要約: モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 61.67183143982074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models learn the consequences of actions in vision-based interactive
systems. However, in practical scenarios like autonomous driving,
noncontrollable dynamics that are independent or sparsely dependent on action
signals often exist, making it challenging to learn effective world models. To
address this issue, we propose Iso-Dream++, a model-based reinforcement
learning approach that has two main contributions. First, we optimize the
inverse dynamics to encourage the world model to isolate controllable state
transitions from the mixed spatiotemporal variations of the environment.
Second, we perform policy optimization based on the decoupled latent
imaginations, where we roll out noncontrollable states into the future and
adaptively associate them with the current controllable state. This enables
long-horizon visuomotor control tasks to benefit from isolating mixed dynamics
sources in the wild, such as self-driving cars that can anticipate the movement
of other vehicles, thereby avoiding potential risks. On top of our previous
work, we further consider the sparse dependencies between controllable and
noncontrollable states, address the training collapse problem of state
decoupling, and validate our approach in transfer learning setups. Our
empirical study demonstrates that Iso-Dream++ outperforms existing
reinforcement learning models significantly on CARLA and DeepMind Control.
- Abstract(参考訳): 世界モデルは、視覚に基づく対話システムにおける行動の結果を学ぶ。
しかし、自律運転のような現実的なシナリオでは、独立性や活動信号にわずかに依存する制御不能なダイナミクスがしばしば存在し、効果的な世界モデルを学ぶことは困難である。
この問題に対処するため,我々は,モデルに基づく強化学習アプローチであるiso-dream++を提案する。
まず, 環境の混合時空間変動から制御可能な状態遷移を分離するよう, 世界モデルに促す逆ダイナミクスを最適化する。
第2に,非制御可能な状態を未来に展開し,現在の制御可能な状態と適応的に関連付ける,疎結合な潜在的想像力に基づくポリシ最適化を行う。
これにより、ロングホリゾンのバイスモータ制御タスクは、他の車両の動きを予測できる自動運転車のような野生の混合動力源を分離することで、潜在的なリスクを回避することができる。
これまでの研究に加えて,制御可能状態と非制御可能状態の間の疎結合について検討し,状態分離のトレーニング崩壊問題に対処し,トランスファー学習セットアップにおける我々のアプローチを検証する。
Iso-Dream++はCARLAやDeepMind Controlで既存の強化学習モデルよりも優れています。
関連論文リスト
- Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Towards Human-Like Driving: Active Inference in Autonomous Vehicle Control [0.5437298646956507]
本稿では,アクティブ推論の適用を通じて,自律走行車(AV)制御への新たなアプローチを提案する。
アクティブ推論(英: Active Inference)は、脳を予測機械として概念化する神経科学に由来する理論である。
提案手法は,深層学習と能動推論を統合してAVの側方制御を制御し,シミュレーション都市環境下で車線追従操作を行う。
論文 参考訳(メタデータ) (2024-07-10T14:08:27Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Isolating and Leveraging Controllable and Noncontrollable Visual
Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。
まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。
第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文 参考訳(メタデータ) (2022-05-27T08:07:39Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Cycle-Consistent World Models for Domain Independent Latent Imagination [0.0]
高いコストとリスクは、現実世界での自動運転車の訓練を困難にします。
本稿では,Cycleconsistent World Modelsと呼ばれる新しいモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-02T13:55:50Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。