論文の概要: Model-Based Reinforcement Learning with Isolated Imaginations
- arxiv url: http://arxiv.org/abs/2303.14889v1
- Date: Mon, 27 Mar 2023 02:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:06:58.669861
- Title: Model-Based Reinforcement Learning with Isolated Imaginations
- Title(参考訳): 孤立した想像力を持つモデルベース強化学習
- Authors: Minting Pan and Xiangming Zhu and Yunbo Wang and Xiaokang Yang
- Abstract要約: モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 65.97707691164558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models learn the consequences of actions in vision-based interactive
systems. However, in practical scenarios like autonomous driving,
noncontrollable dynamics that are independent or sparsely dependent on action
signals often exist, making it challenging to learn effective world models. To
address this issue, we propose Iso-Dream++, a model-based reinforcement
learning approach that has two main contributions. First, we optimize the
inverse dynamics to encourage the world model to isolate controllable state
transitions from the mixed spatiotemporal variations of the environment.
Second, we perform policy optimization based on the decoupled latent
imaginations, where we roll out noncontrollable states into the future and
adaptively associate them with the current controllable state. This enables
long-horizon visuomotor control tasks to benefit from isolating mixed dynamics
sources in the wild, such as self-driving cars that can anticipate the movement
of other vehicles, thereby avoiding potential risks. On top of our previous
work, we further consider the sparse dependencies between controllable and
noncontrollable states, address the training collapse problem of state
decoupling, and validate our approach in transfer learning setups. Our
empirical study demonstrates that Iso-Dream++ outperforms existing
reinforcement learning models significantly on CARLA and DeepMind Control.
- Abstract(参考訳): 世界モデルは、視覚に基づく対話システムにおける行動の結果を学ぶ。
しかし、自律運転のような現実的なシナリオでは、独立性や活動信号にわずかに依存する制御不能なダイナミクスがしばしば存在し、効果的な世界モデルを学ぶことは困難である。
この問題に対処するため,我々は,モデルに基づく強化学習アプローチであるiso-dream++を提案する。
まず, 環境の混合時空間変動から制御可能な状態遷移を分離するよう, 世界モデルに促す逆ダイナミクスを最適化する。
第2に,非制御可能な状態を未来に展開し,現在の制御可能な状態と適応的に関連付ける,疎結合な潜在的想像力に基づくポリシ最適化を行う。
これにより、ロングホリゾンのバイスモータ制御タスクは、他の車両の動きを予測できる自動運転車のような野生の混合動力源を分離することで、潜在的なリスクを回避することができる。
これまでの研究に加えて,制御可能状態と非制御可能状態の間の疎結合について検討し,状態分離のトレーニング崩壊問題に対処し,トランスファー学習セットアップにおける我々のアプローチを検証する。
Iso-Dream++はCARLAやDeepMind Controlで既存の強化学習モデルよりも優れています。
関連論文リスト
- Controllable Safety-Critical Closed-loop Traffic Simulation via Guided
Diffusion [100.4988219600854]
誘導拡散モデルに根ざした新しいクローズドループシミュレーションフレームワークを提案する。
提案手法は, 現実の条件を密にエミュレートする現実的なロングテールシナリオの生成と, 制御性の向上という, 二つの異なる利点をもたらす。
我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model
Predictive Control [49.60520501097199]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - ControlVAE: Model-Based Learning of Generative Controllers for
Physics-Based Characters [28.446959320429656]
可変オートエンコーダ(VAE)に基づく生成動作制御ポリシーを学習するためのモデルベースのフレームワークであるControlVAEを紹介する。
我々のフレームワークは、多種多様な非組織的な動作シーケンスから、リッチで柔軟なスキル表現と、スキル条件付き生成制御ポリシーを学習することができる。
シミュレーション文字のリアルかつインタラクティブな制御を可能にする多種多様なタスクセットを用いた制御VAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-12T10:11:36Z) - Isolating and Leveraging Controllable and Noncontrollable Visual
Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。
まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。
第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文 参考訳(メタデータ) (2022-05-27T08:07:39Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Cycle-Consistent World Models for Domain Independent Latent Imagination [0.0]
高いコストとリスクは、現実世界での自動運転車の訓練を困難にします。
本稿では,Cycleconsistent World Modelsと呼ばれる新しいモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-02T13:55:50Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - Reinforcement Learning for Autonomous Driving with Latent State
Inference and Spatial-Temporal Relationships [46.965260791099986]
強化学習フレームワークにおける潜伏状態の明示的に推測と空間的時間的関係の符号化は,この課題に対処する上で有効であることを示す。
我々は、強化学習者と教師付き学習者を組み合わせた枠組みにより、他の運転者の潜伏状態に関する事前知識を符号化する。
提案手法は,最先端のベースラインアプローチと比較して,T区間のナビゲーションにおける性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-11-09T08:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。