論文の概要: Generative Temporal Difference Learning for Infinite-Horizon Prediction
- arxiv url: http://arxiv.org/abs/2010.14496v4
- Date: Mon, 29 Nov 2021 00:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:22:05.984909
- Title: Generative Temporal Difference Learning for Infinite-Horizon Prediction
- Title(参考訳): 無限ホライゾン予測のための生成時間差学習
- Authors: Michael Janner, Igor Mordatch, Sergey Levine
- Abstract要約: 我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
- 参考スコア(独自算出の注目度): 101.59882753763888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the $\gamma$-model, a predictive model of environment dynamics
with an infinite probabilistic horizon. Replacing standard single-step models
with $\gamma$-models leads to generalizations of the procedures central to
model-based control, including the model rollout and model-based value
estimation. The $\gamma$-model, trained with a generative reinterpretation of
temporal difference learning, is a natural continuous analogue of the successor
representation and a hybrid between model-free and model-based mechanisms. Like
a value function, it contains information about the long-term future; like a
standard predictive model, it is independent of task reward. We instantiate the
$\gamma$-model as both a generative adversarial network and normalizing flow,
discuss how its training reflects an inescapable tradeoff between training-time
and testing-time compounding errors, and empirically investigate its utility
for prediction and control.
- Abstract(参考訳): 我々は,無限確率地平線を持つ環境力学の予測モデルである$\gamma$-modelを導入する。
標準のシングルステップモデルを$\gamma$-modelsで置き換えると、モデルロールアウトやモデルベースの値推定を含むモデルベースの制御の中心となる手順が一般化される。
時間差学習のジェネレーティブな再解釈で訓練された$\gamma$-modelは、後継表現とモデルフリーとモデルベースメカニズムのハイブリッドの自然な連続的な類似物である。
値関数と同様に、長期的な未来に関する情報を含んでいる。標準的な予測モデルと同様に、タスク報酬とは独立している。
生成的敵ネットワークと正規化フローの両方として$\gamma$-modelをインスタンス化し、そのトレーニングがトレーニング時間とテスト時間の複合化エラーの間の不可避なトレードオフをどのように反映するかを議論し、その予測と制御の有用性を実証的に調査する。
関連論文リスト
- COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - EAMDrift: An interpretable self retrain model for time series [0.0]
EAMDrift(EAMDrift)は、複数の個人予測器から予測を合成し、性能指標に従って予測を重み付けする新しい手法である。
EAMDriftはデータのアウト・オブ・ディストリビューションパターンに自動的に適応し、各瞬間に使用する最も適切なモデルを特定するように設計されている。
本研究は,EAMDriftが個々のベースラインモデルより20%優れ,非解釈可能なアンサンブルモデルに匹敵する精度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-31T13:25:26Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Neural Superstatistics for Bayesian Estimation of Dynamic Cognitive
Models [2.7391842773173334]
我々は,時間変化パラメータと時間不変パラメータの両方を復元できるベイズ推論のシミュレーションに基づくディープラーニング手法を開発した。
この結果から,ディープラーニングアプローチは時間的ダイナミクスを捉える上で極めて効率的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-23T17:42:53Z) - Domain-aware Control-oriented Neural Models for Autonomous Underwater
Vehicles [2.4779082385578337]
ドメイン認識のレベルが異なる制御指向パラメトリックモデルを提案する。
データ駆動型ブラックボックスとAUVダイナミクスのグレイボックス表現を構築するために、普遍微分方程式を用いる。
論文 参考訳(メタデータ) (2022-08-15T17:01:14Z) - Stochastic Parameterizations: Better Modelling of Temporal Correlations
using Probabilistic Machine Learning [1.5293427903448025]
確率的フレームワーク内で物理インフォームされたリカレントニューラルネットワークを用いることで,96大気シミュレーションのモデルが競合することを示す。
これは、標準の1次自己回帰スキームと比較して時間的相関をモデル化する能力が優れているためである。
文献から多くの指標を評価するとともに、将来的な気候モデルにおいて、確率論的尺度が統一的な選択である可能性についても論じる。
論文 参考訳(メタデータ) (2022-03-28T14:51:42Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。