論文の概要: Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.04603v1
- Date: Tue, 8 Dec 2020 18:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:04:14.950535
- Title: Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning
- Title(参考訳): モデル、ピクセル、報酬:ビジュアルモデルに基づく強化学習におけるデザイントレードオフの評価
- Authors: Mohammad Babaeizadeh, Mohammad Taghi Saffar, Danijar Hafner, Harini
Kannan, Chelsea Finn, Sergey Levine, Dumitru Erhan
- Abstract要約: 視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
- 参考スコア(独自算出の注目度): 109.74041512359476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) methods have shown strong sample
efficiency and performance across a variety of tasks, including when faced with
high-dimensional visual observations. These methods learn to predict the
environment dynamics and expected reward from interaction and use this
predictive model to plan and perform the task. However, MBRL methods vary in
their fundamental design choices, and there is no strong consensus in the
literature on how these design decisions affect performance. In this paper, we
study a number of design decisions for the predictive model in visual MBRL
algorithms, focusing specifically on methods that use a predictive model for
planning. We find that a range of design decisions that are often considered
crucial, such as the use of latent spaces, have little effect on task
performance. A big exception to this finding is that predicting future
observations (i.e., images) leads to significant task performance improvement
compared to only predicting rewards. We also empirically find that image
prediction accuracy, somewhat surprisingly, correlates more strongly with
downstream task performance than reward prediction accuracy. We show how this
phenomenon is related to exploration and how some of the lower-scoring models
on standard benchmarks (that require exploration) will perform the same as the
best-performing models when trained on the same training data. Simultaneously,
in the absence of exploration, models that fit the data better usually perform
better on the downstream task as well, but surprisingly, these are often not
the same models that perform the best when learning and exploring from scratch.
These findings suggest that performance and exploration place important and
potentially contradictory requirements on the model.
- Abstract(参考訳): モデルベース強化学習(MBRL)法は,高次元の視覚的観察に直面する場合など,様々なタスクにおいて強いサンプル効率と性能を示した。
これらの手法は,環境力学と相互作用から期待される報酬を予測し,この予測モデルを用いてタスクを計画し実行することを学ぶ。
しかし、MBRL法は基本的な設計選択に違いがあり、これらの設計決定が性能にどのように影響するかについては文献に強いコンセンサスがない。
本稿では,視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討し,予測モデルを用いた計画手法に着目した。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
この発見の大きな例外は、将来の観測(例えば画像)を予測することは、報酬を予測することよりも、タスクのパフォーマンスを著しく向上させることである。
また,画像予測精度は,報奨予測精度よりも下流タスク性能に強い相関関係があることを実証的に見出した。
この現象が探索とどのように関係しているか、また、標準的なベンチマーク(探索を必要とする)で低スコアモデルの一部が、同じトレーニングデータでトレーニングされた場合の最高のパフォーマンスモデルとどのように機能するかを示す。
同時に、探索がなければ、データに合うモデルは通常、下流のタスクでもパフォーマンスが良くなりますが、驚くべきことに、これらは学習やスクラッチからの探索において、最高のモデルではないことが多いのです。
これらの結果は、パフォーマンスと探索がモデル上で重要かつ潜在的に矛盾する要件をもたらすことを示唆している。
関連論文リスト
- Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Exploring the Impact of Instruction Data Scaling on Large Language
Models: An Empirical Study on Real-World Use Cases [17.431381376675432]
本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。
ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。
本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
論文 参考訳(メタデータ) (2023-03-26T14:49:37Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Objective Mismatch in Model-based Reinforcement Learning [14.92062504466269]
モデルベース強化学習(MBRL)は、連続タスクをデータ効率よく学習するための強力なフレームワークであることが示されている。
私たちは、標準のMBRLフレームワークの根本的な問題、すなわち、客観的なミスマッチ問題を特定します。
本稿では,動的モデルトレーニングの再重み付けによるミスマッチ問題を緩和するための初期手法を提案する。
論文 参考訳(メタデータ) (2020-02-11T16:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。