論文の概要: Generative Temporal Difference Learning for Infinite-Horizon Prediction
- arxiv url: http://arxiv.org/abs/2010.14496v4
- Date: Mon, 29 Nov 2021 00:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:22:05.984909
- Title: Generative Temporal Difference Learning for Infinite-Horizon Prediction
- Title(参考訳): 無限ホライゾン予測のための生成時間差学習
- Authors: Michael Janner, Igor Mordatch, Sergey Levine
- Abstract要約: 我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
- 参考スコア(独自算出の注目度): 101.59882753763888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the $\gamma$-model, a predictive model of environment dynamics
with an infinite probabilistic horizon. Replacing standard single-step models
with $\gamma$-models leads to generalizations of the procedures central to
model-based control, including the model rollout and model-based value
estimation. The $\gamma$-model, trained with a generative reinterpretation of
temporal difference learning, is a natural continuous analogue of the successor
representation and a hybrid between model-free and model-based mechanisms. Like
a value function, it contains information about the long-term future; like a
standard predictive model, it is independent of task reward. We instantiate the
$\gamma$-model as both a generative adversarial network and normalizing flow,
discuss how its training reflects an inescapable tradeoff between training-time
and testing-time compounding errors, and empirically investigate its utility
for prediction and control.
- Abstract(参考訳): 我々は,無限確率地平線を持つ環境力学の予測モデルである$\gamma$-modelを導入する。
標準のシングルステップモデルを$\gamma$-modelsで置き換えると、モデルロールアウトやモデルベースの値推定を含むモデルベースの制御の中心となる手順が一般化される。
時間差学習のジェネレーティブな再解釈で訓練された$\gamma$-modelは、後継表現とモデルフリーとモデルベースメカニズムのハイブリッドの自然な連続的な類似物である。
値関数と同様に、長期的な未来に関する情報を含んでいる。標準的な予測モデルと同様に、タスク報酬とは独立している。
生成的敵ネットワークと正規化フローの両方として$\gamma$-modelをインスタンス化し、そのトレーニングがトレーニング時間とテスト時間の複合化エラーの間の不可避なトレードオフをどのように反映するかを議論し、その予測と制御の有用性を実証的に調査する。
関連論文リスト
- COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - End-to-End Reinforcement Learning of Koopman Models for Economic
Nonlinear Model Predictive Control [50.0791489606211]
非線形モデル予測制御((e)NMPC)は、すべての状態空間領域において十分正確なシステムモデルを必要とする。
メカニスティックモデルのためのデータ駆動サロゲートモデルは、(e)NMPCの計算負担を軽減するために使用できる。
In this method for end-to-end reinforcement learning of dynamic surrogate model for optimal performance in (e)NMPC applications。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Uncertainty estimation for time series forecasting via Gaussian process
regression surrogates [0.8733767481819791]
代用ガウス過程モデルに基づく不確実性推定法を提案する。
提案手法は,任意のベースモデルに対して,個別のサロゲートが生成した正確な不確実性推定を行うことができる。
他の手法と比較して、見積もりは1つの追加モデルだけで計算的に有効である。
論文 参考訳(メタデータ) (2023-02-06T14:52:56Z) - Domain-aware Control-oriented Neural Models for Autonomous Underwater
Vehicles [2.4779082385578337]
ドメイン認識のレベルが異なる制御指向パラメトリックモデルを提案する。
データ駆動型ブラックボックスとAUVダイナミクスのグレイボックス表現を構築するために、普遍微分方程式を用いる。
論文 参考訳(メタデータ) (2022-08-15T17:01:14Z) - Stochastic Parameterizations: Better Modelling of Temporal Correlations
using Probabilistic Machine Learning [1.5293427903448025]
確率的フレームワーク内で物理インフォームされたリカレントニューラルネットワークを用いることで,96大気シミュレーションのモデルが競合することを示す。
これは、標準の1次自己回帰スキームと比較して時間的相関をモデル化する能力が優れているためである。
文献から多くの指標を評価するとともに、将来的な気候モデルにおいて、確率論的尺度が統一的な選択である可能性についても論じる。
論文 参考訳(メタデータ) (2022-03-28T14:51:42Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Improving the Reconstruction of Disentangled Representation Learners via
Multi-Stage Modelling [36.511724015405036]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
モデルが相関変数を学習するのに十分な能力を持っていないため,不整合表現学習と再構成品質のトレードオフがもたらされる。
本稿では,既存の不整合表現学習手法を用いて,非整合因子をまず学習する,新しい多段階モデリング手法を提案する。
提案するマルチステージモデルは,複数の標準ベンチマークにおいて等価なアンタングル性能を有する現在の最先端手法よりも,はるかに高い再現性を有することを示す。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。