論文の概要: Which Model To Trust: Assessing the Influence of Models on the
Performance of Reinforcement Learning Algorithms for Continuous Control Tasks
- arxiv url: http://arxiv.org/abs/2110.13079v1
- Date: Mon, 25 Oct 2021 16:17:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 14:39:24.346905
- Title: Which Model To Trust: Assessing the Influence of Models on the
Performance of Reinforcement Learning Algorithms for Continuous Control Tasks
- Title(参考訳): 信頼すべきモデル:連続制御タスクの強化学習アルゴリズムの性能に及ぼすモデルの影響を評価する
- Authors: Giacomo Arcieri, David W\"olfle, Eleni Chatzi
- Abstract要約: アルゴリズムの改善やモデルの改善による最近の進歩の程度は明らかになっていない。
モデル比較のために、一般的に採用されているモデルのセットが確立されている。
結果,モデル性能に有意な差が認められた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The need for algorithms able to solve Reinforcement Learning (RL) problems
with few trials has motivated the advent of model-based RL methods. The
reported performance of model-based algorithms has dramatically increased
within recent years. However, it is not clear how much of the recent progress
is due to improved algorithms or due to improved models. While different
modeling options are available to choose from when applying a model-based
approach, the distinguishing traits and particular strengths of different
models are not clear. The main contribution of this work lies precisely in
assessing the model influence on the performance of RL algorithms. A set of
commonly adopted models is established for the purpose of model comparison.
These include Neural Networks (NNs), ensembles of NNs, two different
approximations of Bayesian NNs (BNNs), that is, the Concrete Dropout NN and the
Anchored Ensembling, and Gaussian Processes (GPs). The model comparison is
evaluated on a suite of continuous control benchmarking tasks. Our results
reveal that significant differences in model performance do exist. The Concrete
Dropout NN reports persistently superior performance. We summarize these
differences for the benefit of the modeler and suggest that the model choice is
tailored to the standards required by each specific application.
- Abstract(参考訳): 数トライアルで強化学習(RL)問題を解決するアルゴリズムの必要性は、モデルベースのRL手法の出現を動機付けている。
近年,モデルベースアルゴリズムの性能は劇的に向上している。
しかし、アルゴリズムの改善やモデルの改善による最近の進歩の程度は明らかになっていない。
モデルベースのアプローチを適用する場合、異なるモデリングオプションが選択できるが、異なるモデルの識別特性と特定の強みは明確ではない。
この研究の主な貢献は、RLアルゴリズムの性能に対するモデルの影響を正確に評価することにある。
モデル比較を目的としたモデルセットが一般的である。
ニューラルネットワーク(NN)、NNのアンサンブル、ベイジアンNN(BNN)の2つの異なる近似、すなわちコンクリートドロップアウトNNとアンコレッドエンセブリング(Anchored Ensembling)、ガウスアンプロセス(GP)などがある。
モデルの比較は一連の連続制御ベンチマークタスクで評価される。
その結果,モデルの性能に有意な差があることが判明した。
コンクリート投棄NNは、持続的に優れた性能を報告している。
これらの違いをモデラーの利益のために要約し、モデルの選択が各特定のアプリケーションに必要な標準に合わせて調整されていることを示唆する。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - How to Fine-tune the Model: Unified Model Shift and Model Bias Policy
Optimization [13.440645736306267]
本稿ではモデルに基づく強化学習のためのアルゴリズムを開発する。
モデルシフトとモデルバイアスを統一し、微調整プロセスを定式化する。
これは、いくつかの挑戦的なベンチマークタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-22T07:27:32Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Reinforcement Learning based dynamic weighing of Ensemble Models for
Time Series Forecasting [0.8399688944263843]
データモデリングのために選択されたモデルが(線形/非線形、静的/動的)異なるモデルと独立(最小相関)モデルである場合、予測の精度が向上することが知られている。
アンサンブルモデルを重み付けするために文献で提案された様々なアプローチは、静的な重みセットを使用する。
この問題に対処するため、Reinforcement Learning (RL)アプローチでは、各モデルの重み付けを異なるタイミングで動的に割り当て、更新する。
論文 参考訳(メタデータ) (2020-08-20T10:40:42Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。