論文の概要: Towards Evaluating Adaptivity of Model-Based Reinforcement Learning
Methods
- arxiv url: http://arxiv.org/abs/2204.11464v1
- Date: Mon, 25 Apr 2022 06:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 12:37:05.000516
- Title: Towards Evaluating Adaptivity of Model-Based Reinforcement Learning
Methods
- Title(参考訳): モデルベース強化学習法の適応性評価に向けて
- Authors: Yi Wan, Ali Rahimi-Kalahroudi, Janarthanan Rajendran, Ida Momennejad,
Sarath Chandar, Harm van Seijen
- Abstract要約: モデルに基づく手法は, 局所的な環境変化に適応する能力に乏しいことを示す。
適応的な振る舞いを損なう要素を特定し、深層モデルベースRLで頻繁に使用される基礎技術とリンクする。
適応非線形モデルに基づく手法を構築する際の課題について考察する。
- 参考スコア(独自算出の注目度): 25.05409184943328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, a growing number of deep model-based reinforcement learning
(RL) methods have been introduced. The interest in deep model-based RL is not
surprising, given its many potential benefits, such as higher sample efficiency
and the potential for fast adaption to changes in the environment. However, we
demonstrate, using an improved version of the recently introduced Local Change
Adaptation (LoCA) setup, that well-known model-based methods such as PlaNet and
DreamerV2 perform poorly in their ability to adapt to local environmental
changes. Combined with prior work that made a similar observation about the
other popular model-based method, MuZero, a trend appears to emerge, suggesting
that current deep model-based methods have serious limitations. We dive deeper
into the causes of this poor performance, by identifying elements that hurt
adaptive behavior and linking these to underlying techniques frequently used in
deep model-based RL. We empirically validate these insights in the case of
linear function approximation by demonstrating that a modified version of
linear Dyna achieves effective adaptation to local changes. Furthermore, we
provide detailed insights into the challenges of building an adaptive nonlinear
model-based method, by experimenting with a nonlinear version of Dyna.
- Abstract(参考訳): 近年,深層モデルに基づく強化学習(rl)手法が数多く導入されている。
深層モデルに基づくRLへの関心は、サンプル効率の向上や環境の変化への迅速な適応の可能性など、多くの潜在的な利点を考えれば驚きではない。
しかし,最近導入されたlocal change adapt (loca) の改良版を用いて,planetやdreamerv2といったモデルベース手法が,環境変化への対応能力に乏しいことを実証した。
他の一般的なモデルベース手法であるMuZeroについて同様の観察を行った以前の研究と合わせて、現在のディープモデルベース手法には深刻な制限があることが示唆されている。
我々は、適応的な振る舞いを損なう要素を特定し、深層モデルベースのRLで頻繁に使用される基礎技術にリンクすることで、このパフォーマンスの低下の原因を深く掘り下げる。
これらの知見を線形関数近似において実証的に検証し,線形dynaの修正版が局所的変化に効果的に適応することを示す。
さらに,dynaの非線形版を実験することにより,適応型非線形モデルに基づく手法構築の課題に関する詳細な知見を提供する。
関連論文リスト
- Knowledge Editing in Language Models via Adapted Direct Preference Optimization [50.616875565173274]
大きな言語モデル(LLM)は、時間とともに時代遅れになる可能性がある。
知識編集は、高価なリトレーニングを必要としないウェイトアップデートを使用して、この課題を克服することを目的としている。
論文 参考訳(メタデータ) (2024-06-14T11:02:21Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - How to Fine-tune the Model: Unified Model Shift and Model Bias Policy
Optimization [13.440645736306267]
本稿ではモデルに基づく強化学習のためのアルゴリズムを開発する。
モデルシフトとモデルバイアスを統一し、微調整プロセスを定式化する。
これは、いくつかの挑戦的なベンチマークタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-22T07:27:32Z) - Replay Buffer with Local Forgetting for Adapting to Local Environment
Changes in Deep Model-Based Reinforcement Learning [20.92599229976769]
本稿では,初回再生バッファの簡単な変更により,再生バッファの制限を克服できることを示す。
古典的ダイナ法のディープバージョンにリプレイバッファ変動を適用してこれを実証する。
論文 参考訳(メタデータ) (2023-03-15T15:21:26Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Adapting the Linearised Laplace Model Evidence for Modern Deep Learning [3.459382629188014]
モデル不確実性を推定する線形化ラプラス法は,深層学習コミュニティで注目されている。
これらの仮定は、現在標準となっているディープラーニングツールとの相互作用が不十分であることを示す。
われわれは、この古典的な手法を現代的な設定にどのように適応させるかを推奨している。
論文 参考訳(メタデータ) (2022-06-17T17:18:31Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in
Reinforcement Learning [21.967763416902265]
本稿では,RL手法のモデルベース動作を評価するための実験装置を提案する。
我々のメトリクスは、たとえ手法が表現に乏しいとしても、モデルに基づく振る舞いを識別できる。
我々は、従来のマウンテンカータスクのバリエーションに基づいて、MuZeroのモデルに基づく振る舞いを評価するためにセットアップを使用する。
論文 参考訳(メタデータ) (2020-07-07T01:34:55Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。