Fugu-MT 論文翻訳(概要): Model-Based Reinforcement Learning with Isolated Imaginations

論文の概要: Model-Based Reinforcement Learning with Isolated Imaginations

arxiv url: http://arxiv.org/abs/2303.14889v1
Date: Mon, 27 Mar 2023 02:55:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 17:06:58.669861
Title: Model-Based Reinforcement Learning with Isolated Imaginations
Title（参考訳）: 孤立した想像力を持つモデルベース強化学習
Authors: Minting Pan and Xiangming Zhu and Yunbo Wang and Xiaokang Yang
Abstract要約: モデルに基づく強化学習手法であるIso-Dream++を提案する。我々は、切り離された潜在的想像力に基づいて政策最適化を行う。これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
参考スコア（独自算出の注目度）: 65.97707691164558
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: World models learn the consequences of actions in vision-based interactive systems. However, in practical scenarios like autonomous driving, noncontrollable dynamics that are independent or sparsely dependent on action signals often exist, making it challenging to learn effective world models. To address this issue, we propose Iso-Dream++, a model-based reinforcement learning approach that has two main contributions. First, we optimize the inverse dynamics to encourage the world model to isolate controllable state transitions from the mixed spatiotemporal variations of the environment. Second, we perform policy optimization based on the decoupled latent imaginations, where we roll out noncontrollable states into the future and adaptively associate them with the current controllable state. This enables long-horizon visuomotor control tasks to benefit from isolating mixed dynamics sources in the wild, such as self-driving cars that can anticipate the movement of other vehicles, thereby avoiding potential risks. On top of our previous work, we further consider the sparse dependencies between controllable and noncontrollable states, address the training collapse problem of state decoupling, and validate our approach in transfer learning setups. Our empirical study demonstrates that Iso-Dream++ outperforms existing reinforcement learning models significantly on CARLA and DeepMind Control.
Abstract（参考訳）: 世界モデルは、視覚に基づく対話システムにおける行動の結果を学ぶ。しかし、自律運転のような現実的なシナリオでは、独立性や活動信号にわずかに依存する制御不能なダイナミクスがしばしば存在し、効果的な世界モデルを学ぶことは困難である。この問題に対処するため,我々は,モデルに基づく強化学習アプローチであるiso-dream++を提案する。まず, 環境の混合時空間変動から制御可能な状態遷移を分離するよう, 世界モデルに促す逆ダイナミクスを最適化する。第2に,非制御可能な状態を未来に展開し,現在の制御可能な状態と適応的に関連付ける,疎結合な潜在的想像力に基づくポリシ最適化を行う。これにより、ロングホリゾンのバイスモータ制御タスクは、他の車両の動きを予測できる自動運転車のような野生の混合動力源を分離することで、潜在的なリスクを回避することができる。これまでの研究に加えて,制御可能状態と非制御可能状態の間の疎結合について検討し,状態分離のトレーニング崩壊問題に対処し,トランスファー学習セットアップにおける我々のアプローチを検証する。 Iso-Dream++はCARLAやDeepMind Controlで既存の強化学習モデルよりも優れています。

関連論文リスト

Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文参考訳（メタデータ） (2025-09-24T13:35:15Z)
AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文参考訳（メタデータ） (2025-09-02T04:32:24Z)
A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文参考訳（メタデータ） (2025-01-20T04:00:02Z)
Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-09-25T06:48:25Z)
Towards Human-Like Driving: Active Inference in Autonomous Vehicle Control [0.5437298646956507]
本稿では,アクティブ推論の適用を通じて,自律走行車(AV)制御への新たなアプローチを提案する。アクティブ推論(英: Active Inference)は、脳を予測機械として概念化する神経科学に由来する理論である。提案手法は,深層学習と能動推論を統合してAVの側方制御を制御し,シミュレーション都市環境下で車線追従操作を行う。
論文参考訳（メタデータ） (2024-07-10T14:08:27Z)
Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文参考訳（メタデータ） (2023-08-29T07:15:57Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Isolating and Leveraging Controllable and Noncontrollable Visual Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文参考訳（メタデータ） (2022-05-27T08:07:39Z)
Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文参考訳（メタデータ） (2021-10-27T04:27:28Z)
Cycle-Consistent World Models for Domain Independent Latent Imagination [0.0]
高いコストとリスクは、現実世界での自動運転車の訓練を困難にします。本稿では,Cycleconsistent World Modelsと呼ばれる新しいモデルに基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2021-10-02T13:55:50Z)
GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文参考訳（メタデータ） (2021-04-07T01:08:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。