論文の概要: CLOUD: Contrastive Learning of Unsupervised Dynamics
- arxiv url: http://arxiv.org/abs/2010.12488v1
- Date: Fri, 23 Oct 2020 15:42:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:55:04.348182
- Title: CLOUD: Contrastive Learning of Unsupervised Dynamics
- Title(参考訳): CLOUD: 教師なしダイナミクスの対照的な学習
- Authors: Jianren Wang, Yujie Lu, Hang Zhao
- Abstract要約: コントラスト推定により、完全に教師のない方法で前方・逆ダイナミクスを学習することを提案する。
目標指向計画や観察からの模倣など,さまざまなタスクにまたがるアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 19.091886595825947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing agents that can perform complex control tasks from high
dimensional observations such as pixels is challenging due to difficulties in
learning dynamics efficiently. In this work, we propose to learn forward and
inverse dynamics in a fully unsupervised manner via contrastive estimation.
Specifically, we train a forward dynamics model and an inverse dynamics model
in the feature space of states and actions with data collected from random
exploration. Unlike most existing deterministic models, our energy-based model
takes into account the stochastic nature of agent-environment interactions. We
demonstrate the efficacy of our approach across a variety of tasks including
goal-directed planning and imitation from observations. Project videos and code
are at https://jianrenw.github.io/cloud/.
- Abstract(参考訳): ピクセルのような高次元の観察から複雑な制御タスクを実行できるエージェントの開発は、効率的に学習するダイナミクスの難しさから困難である。
本研究では, コントラスト推定により, 完全に教師なしの方法でフォワードと逆ダイナミクスを学ぶことを提案する。
具体的には,ランダム探索から収集したデータを用いて,状態と動作の特徴空間におけるフォワードダイナミクスモデルと逆ダイナミクスモデルを訓練する。
既存の決定論的モデルとは異なり、我々のエネルギーベースモデルはエージェント-環境相互作用の確率的性質を考慮に入れている。
ゴール指向の計画や観察からの模倣など,さまざまなタスクにわたるアプローチの有効性を実証する。
プロジェクトビデオとコードはhttps://jianrenw.github.io/cloud/。
関連論文リスト
- SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - Learning Reactive and Predictive Differentiable Controllers for
Switching Linear Dynamical Models [7.653542219337937]
専門家による実証から複合ダイナミクス行動を学習するためのフレームワークを提示する。
システムダイナミクスの近接近似としてスイッチング条件にエンコードされた接点を持つスイッチング線形ダイナミクスモデルを学ぶ。
次に、データ効率のよい制御学習のための微分可能なポリシークラスとして離散時間LQRを使用し、制御戦略を開発する。
論文 参考訳(メタデータ) (2021-03-26T04:40:24Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。