論文の概要: Learning Dynamics Models for Model Predictive Agents
- arxiv url: http://arxiv.org/abs/2109.14311v1
- Date: Wed, 29 Sep 2021 09:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:37:37.668327
- Title: Learning Dynamics Models for Model Predictive Agents
- Title(参考訳): モデル予測エージェントのための学習ダイナミクスモデル
- Authors: Michael Lutter, Leonard Hasenclever, Arunkumar Byravan, Gabriel
Dulac-Arnold, Piotr Trochim, Nicolas Heess, Josh Merel, Yuval Tassa
- Abstract要約: モデルに基づく強化学習は、データからテクトダイナミックスモデルを学習し、そのモデルを使用して振る舞いを最適化する。
本稿では, 動的モデル学習における設計選択の役割を, 基礎構造モデルとの比較により明らかにすることを目的としている。
- 参考スコア(独自算出の注目度): 28.063080817465934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-Based Reinforcement Learning involves learning a \textit{dynamics
model} from data, and then using this model to optimise behaviour, most often
with an online \textit{planner}. Much of the recent research along these lines
presents a particular set of design choices, involving problem definition,
model learning and planning. Given the multiple contributions, it is difficult
to evaluate the effects of each. This paper sets out to disambiguate the role
of different design choices for learning dynamics models, by comparing their
performance to planning with a ground-truth model -- the simulator. First, we
collect a rich dataset from the training sequence of a model-free agent on 5
domains of the DeepMind Control Suite. Second, we train feed-forward dynamics
models in a supervised fashion, and evaluate planner performance while varying
and analysing different model design choices, including ensembling,
stochasticity, multi-step training and timestep size. Besides the quantitative
analysis, we describe a set of qualitative findings, rules of thumb, and future
research directions for planning with learned dynamics models. Videos of the
results are available at https://sites.google.com/view/learning-better-models.
- Abstract(参考訳): モデルベースの強化学習では、データから \textit{dynamics model} を学び、次にこのモデルを使用して振る舞いを最適化する。
これらのラインに関する最近の研究の多くは、問題定義、モデル学習、計画を含む、特定の設計選択のセットを示している。
複数の貢献を考えると、それぞれの効果を評価するのは難しい。
本稿では, 動的モデル学習における設計選択の役割を, 基礎構造モデル(シミュレーター)との比較により明らかにすることを目的としている。
まず、DeepMind Control Suiteの5つのドメイン上のモデルフリーエージェントのトレーニングシーケンスから、リッチなデータセットを収集します。
第2に,フィードフォワードダイナミクスモデルを教師付きでトレーニングし,センシムリング,確率性,多段階トレーニング,時間ステップサイズなど,異なるモデル設計選択を変更・分析しながら,プランナーの性能を評価する。
定量的解析の他に,質的知見の組,親指の規則,学習力学モデルを用いた計画のための今後の研究方向について述べる。
結果のビデオはhttps://sites.google.com/view/learning-better-modelsで見ることができる。
関連論文リスト
- Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。
タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文 参考訳(メタデータ) (2022-04-03T02:29:11Z) - Model LEGO: Creating Models Like Disassembling and Assembling Building Blocks [53.09649785009528]
本稿では,新しいモデルを得るためのトレーニングを必要としないパラダイムについて検討する。
生体視覚系における受容野にインスパイアされたCNNの誕生と同様、モデル分解と組み立てを提案する。
モデル組立には、特定のタスクに適した新しいモデルを構築するために、アライメントパディング戦略とパラメータスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Demystifying Deep Learning in Predictive Spatio-Temporal Analytics: An
Information-Theoretic Framework [20.28063653485698]
ディープラーニングモデル設計と情報理論解析のための包括的なフレームワークを提供する。
まず、インタラクティブに接続された新しいディープリカレントニューラルネットワーク(I$2$DRNN)モデルを開発し、実演する。
第二に、設計モデルがPSTAタスクのマルチスケール時間依存性を学習できることを理論的に証明するために、情報理論解析を提供する。
論文 参考訳(メタデータ) (2020-09-14T10:05:14Z) - Reinforcement Learning based dynamic weighing of Ensemble Models for
Time Series Forecasting [0.8399688944263843]
データモデリングのために選択されたモデルが(線形/非線形、静的/動的)異なるモデルと独立(最小相関)モデルである場合、予測の精度が向上することが知られている。
アンサンブルモデルを重み付けするために文献で提案された様々なアプローチは、静的な重みセットを使用する。
この問題に対処するため、Reinforcement Learning (RL)アプローチでは、各モデルの重み付けを異なるタイミングで動的に割り当て、更新する。
論文 参考訳(メタデータ) (2020-08-20T10:40:42Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Learning Predictive Representations for Deformable Objects Using
Contrastive Estimation [83.16948429592621]
視覚表現モデルと動的モデルの両方を協調的に最適化する新しい学習フレームワークを提案する。
我々は,標準モデルに基づく学習手法をロープや布の操作スイートで大幅に改善した。
論文 参考訳(メタデータ) (2020-03-11T17:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。