論文の概要: Temporal Predictive Coding For Model-Based Planning In Latent Space
- arxiv url: http://arxiv.org/abs/2106.07156v1
- Date: Mon, 14 Jun 2021 04:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:29:42.392710
- Title: Temporal Predictive Coding For Model-Based Planning In Latent Space
- Title(参考訳): 潜在空間におけるモデルベース計画のための時間予測符号化
- Authors: Tung Nguyen, Rui Shu, Tuan Pham, Hung Bui, Stefano Ermon
- Abstract要約: 時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
- 参考スコア(独自算出の注目度): 80.99554006174093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional observations are a major challenge in the application of
model-based reinforcement learning (MBRL) to real-world environments. To handle
high-dimensional sensory inputs, existing approaches use representation
learning to map high-dimensional observations into a lower-dimensional latent
space that is more amenable to dynamics estimation and planning. In this work,
we present an information-theoretic approach that employs temporal predictive
coding to encode elements in the environment that can be predicted across time.
Since this approach focuses on encoding temporally-predictable information, we
implicitly prioritize the encoding of task-relevant components over nuisance
information within the environment that are provably task-irrelevant. By
learning this representation in conjunction with a recurrent state space model,
we can then perform planning in latent space. We evaluate our model on a
challenging modification of standard DMControl tasks where the background is
replaced with natural videos that contain complex but irrelevant information to
the planning task. Our experiments show that our model is superior to existing
methods in the challenging complex-background setting while remaining
competitive with current state-of-the-art models in the standard setting.
- Abstract(参考訳): 高次元観測は、実環境へのモデルベース強化学習(MBRL)の適用において大きな課題である。
高次元の感覚入力を扱うために、既存のアプローチでは表現学習を用いて高次元の観測結果をよりダイナミックス推定や計画に適した低次元の潜在空間にマッピングしている。
本研究では,時間的に予測可能な環境要素を符号化するために時間的予測符号化を用いる情報理論的手法を提案する。
本手法は,時間予測可能な情報をエンコーディングすることに焦点を当てているため,タスク関連コンポーネントのエンコーディングを,タスク関連ではない環境内のニュアンス情報よりも暗黙的に優先する。
この表現をリカレント状態空間モデルと組み合わせて学習することで、潜在空間で計画を実行することができる。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
実験の結果,本モデルは従来の手法よりも複雑背景設定が優れているが,標準設定では現状モデルとの競争力は保たれていることがわかった。
関連論文リスト
- Generative Modeling with Phase Stochastic Bridges [52.919600985186996]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Spatio-temporal predictive tasks for abnormal event detection in videos [60.02503434201552]
オブジェクトレベルの正規化パターンを学習するための制約付きプレテキストタスクを提案する。
我々のアプローチは、ダウンスケールの視覚的クエリとそれに対応する正常な外観と運動特性のマッピングを学習することである。
いくつかのベンチマークデータセットの実験では、異常の局所化と追跡のためのアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2022-10-27T19:45:12Z) - NTFields: Neural Time Fields for Physics-Informed Robot Motion Planning [1.9798034349981157]
乱雑なシナリオにおけるロボット動作計画のためのニューラルタイムフィールド(NTFields)を提案する。
本フレームワークは,Eykonal Equationと呼ばれる非線形一階PDEから得られる経路解を見つけるために,連続到着時間を生成する波動伝搬モデルを表す。
ギブソン・データセットを含む様々な散在した3次元環境において本手法の評価を行い,4-DOFおよび6-DOFロボットマニピュレータの動作計画問題を解く能力を実証した。
論文 参考訳(メタデータ) (2022-09-30T22:34:54Z) - Episodic Memory for Learning Subjective-Timescale Models [1.933681537640272]
モデルに基づく学習では、エージェントのモデルは、環境の連続状態間の遷移に対して一般的に定義される。
対照的に、生物学的生物の知的行動は、文脈によって異なる時間スケールを計画する能力によって特徴づけられる。
エージェントの主観的時間尺度を定義するエピソード記憶のシーケンスに基づいて、遷移力学モデルを学ぶための新しいアプローチを考案する。
論文 参考訳(メタデータ) (2020-10-03T21:55:40Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Mutual Information Maximization for Robust Plannable Representations [82.83676853746742]
モデルに基づく強化学習のための情報理論表現学習アルゴリズムMIROを提案する。
提案手法は, 邪魔や散らかったシーンの存在下で, 再建目的よりも頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-16T21:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。