論文の概要: Acting upon Imagination: when to trust imagined trajectories in model
based reinforcement learning
- arxiv url: http://arxiv.org/abs/2105.05716v1
- Date: Wed, 12 May 2021 15:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 17:26:50.936234
- Title: Acting upon Imagination: when to trust imagined trajectories in model
based reinforcement learning
- Title(参考訳): イマジネーションを実践する:モデルに基づく強化学習における想像軌道の信頼
- Authors: Adrian Remonda, Eduardo Veas, Granit Luzhnica
- Abstract要約: 本論文では, 受諾可能な報酬を維持しながら, 将来, 想像された軌道をどの程度信頼できるかを検討する。
その結果,環境によっては,イマジネーションに作用することで,少なくとも20%,最大80%の計算を削減できることがわかった。
- 参考スコア(独自算出の注目度): 4.318555434063274
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Model based reinforcement learning (MBRL) uses an imperfect model of the
world to imagine trajectories of future states and plan the best actions to
maximize a reward function. These trajectories are imperfect and MBRL attempts
to overcome this by relying on model predictive control (MPC) to continuously
re-imagine trajectories from scratch. Such re-generation of imagined
trajectories carries the major computational cost and increasing complexity in
tasks with longer receding horizon. This paper aims to investigate how far in
the future the imagined trajectories can be relied upon while still maintaining
acceptable reward. Firstly, an error analysis is presented for systematic
skipping recalculations for varying number of consecutive steps.% in several
challenging benchmark control tasks. Secondly, we propose two methods offering
when to trust and act upon imagined trajectories, looking at recent errors with
respect to expectations, or comparing the confidence in an action imagined
against its execution. Thirdly, we evaluate the effects of acting upon
imagination while training the model of the world. Results show that acting
upon imagination can reduce calculations by at least 20% and up to 80%,
depending on the environment, while retaining acceptable reward.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、世界の不完全なモデルを用いて将来の状態の軌跡を想像し、報酬関数を最大化するために最良の行動を計画する。
これらの軌道は不完全であり、MBRLはモデル予測制御(MPC)に頼って軌道をゼロから連続的に再現することでこれを克服しようとする。
このような想像された軌道の再生成は、大きな計算コストと、長い後退地平線を持つタスクの複雑さの増加をもたらす。
本論文は, 将来, 想定される軌道が, 許容される報酬を維持しつつ, どこまで信頼できるかを検討することを目的とする。
まず,いくつかの難解なベンチマーク制御タスクにおいて,連続するステップ数に対して系統的スキップ再計算を行うための誤り解析を行った。
第2に,想定された軌道を信頼し行動するタイミング,期待に対する最近の誤りを見る方法,あるいはその実行に対して想定される行動の信頼性を比較する方法を提案する。
第3に,世界のモデルを訓練しながら,想像力に及ぼす行動の影響を評価する。
その結果、想像力に基づく行動は、許容される報酬を保ちながら、環境に応じて計算を少なくとも20%、最大80%削減できることが示された。
関連論文リスト
- DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Multi-timestep models for Model-based Reinforcement Learning [10.940666275830052]
モデルベース強化学習(MBRL)では、ほとんどのアルゴリズムはデータに基づいて学習した1ステップのダイナミックスモデルからの軌道のシミュレーションに依存している。
我々は、マルチステップの目標を用いてワンステップモデルをトレーニングすることでこの問題に対処する。
指数関数的に減衰する重みは、長い水平R2スコアを著しく改善するモデルに繋がることがわかった。
論文 参考訳(メタデータ) (2023-10-09T12:42:39Z) - Sense, Imagine, Act: Multimodal Perception Improves Model-Based
Reinforcement Learning for Head-to-Head Autonomous Racing [10.309579267966361]
モデルベース強化学習(MBRL)技術は、最近、現実の自律レースに有望な結果をもたらした。
本稿では,F1TENTH Gymから収集した自家中心型LiDARとRGBカメラ観測を組み合わせた自己教師型センサ融合手法を提案する。
その結果、ドリーマーのエージェントは衝突を安全に回避し、ゼロショット・ヘッド・ツー・ヘッド・オートレースでテストされた他のベースラインと比較すると、最も多くのレースに勝利した。
論文 参考訳(メタデータ) (2023-05-08T14:49:02Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z) - Joint Prediction of Remaining Useful Life and Failure Type of Train
Wheelsets: A Multi-task Learning Approach [0.10878040851637999]
列車の車輪の故障は列車の運行の中断および列車の脱線の大部分を占めます。
この2つのタスクを共通入力空間を用いて共同で実現するためのマルチタスク学習手法を提案する。
実験の結果,単一タスク学習法よりも予測精度が3%高いことがわかった。
論文 参考訳(メタデータ) (2021-01-10T08:20:21Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。