論文の概要: The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.12527v1
- Date: Mon, 19 Feb 2024 20:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:11:47.878579
- Title: The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning
- Title(参考訳): オフラインモデルに基づく強化学習におけるエッジ・オブ・リーチ問題
- Authors: Anya Sims, Cong Lu, Yee Whye Teh
- Abstract要約: オフライン強化学習は、事前に収集されたデータセットからエージェントをトレーニング可能にすることを目的としている。
モデルベースの手法は、エージェントが学習されたダイナミックスモデルでロールアウトを介して追加の合成データを収集できるようにすることで、ソリューションを提供する。
しかし、学習したダイナミックスモデルを真のエラーフリーなダイナミックスに置き換えると、既存のモデルベースのメソッドは完全に失敗する。
本稿では, エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Value Learning (RAVL)を提案する。
- 参考スコア(独自算出の注目度): 37.387280102209274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning aims to enable agents to be trained from
pre-collected datasets, however, this comes with the added challenge of
estimating the value of behavior not covered in the dataset. Model-based
methods offer a solution by allowing agents to collect additional synthetic
data via rollouts in a learned dynamics model. The prevailing theoretical
understanding is that this can then be viewed as online reinforcement learning
in an approximate dynamics model, and any remaining gap is therefore assumed to
be due to the imperfect dynamics model. Surprisingly, however, we find that if
the learned dynamics model is replaced by the true error-free dynamics,
existing model-based methods completely fail. This reveals a major
misconception. Our subsequent investigation finds that the general procedure
used in model-based algorithms results in the existence of a set of
edge-of-reach states which trigger pathological value overestimation and
collapse in Bellman-based algorithms. We term this the edge-of-reach problem.
Based on this, we fill some gaps in existing theory and also explain how prior
model-based methods are inadvertently addressing the true underlying
edge-of-reach problem. Finally, we propose Reach-Aware Value Learning (RAVL), a
simple and robust method that directly addresses the edge-of-reach problem and
achieves strong performance across both proprioceptive and pixel-based
benchmarks. Code open-sourced at: https://github.com/anyasims/edge-of-reach.
- Abstract(参考訳): オフライン強化学習は、事前に収集されたデータセットからエージェントをトレーニング可能にすることを目的としている。
モデルベースの手法は、エージェントが学習したダイナミクスモデルでロールアウトを介して追加の合成データを収集できるようにすることでソリューションを提供する。
理論的な理解は、これを近似力学モデルにおけるオンライン強化学習と見なすことができ、従って残りのギャップは不完全力学モデルによるものであると考えられる。
しかし、驚くべきことに、学習したダイナミクスモデルが真のエラーフリーダイナミクスに置き換えられると、既存のモデルベースのメソッドは完全に失敗する。
これは大きな誤解である。
その後の研究では、モデルベースアルゴリズムで使用される一般的な手順が、病理的価値過大評価とベルマンアルゴリズムの崩壊を引き起こすエッジ・オブ・リーチ状態の存在を示唆している。
これをエッジ・オブ・リーチ問題と呼ぶ。
これに基づいて,既存理論のギャップを埋めるとともに,従来のモデルベース手法が真のエッジ・オブ・リーチ問題に不注意に対処しているかを説明する。
最後に,Reach-Aware Value Learning (RAVL)を提案する。この手法は,エッジ・オブ・リーチ問題に直接対処し,プロプリセプティブなベンチマークと画素ベースのベンチマークの両方で高い性能を実現する。
https://github.com/anyasims/edge-of-reach.com/でオープンソース化されたコード。
関連論文リスト
- Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Neural Abstractions [72.42530499990028]
本稿では,ニューラルネットワークを用いた非線形力学モデルの安全性検証手法を提案する。
提案手法は,既存のベンチマーク非線形モデルにおいて,成熟度の高いFlow*と同等に動作することを示す。
論文 参考訳(メタデータ) (2023-01-27T12:38:09Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Multicriteria interpretability driven Deep Learning [0.0]
ディープラーニングの手法はパフォーマンスで有名だが、その解釈可能性の欠如は、高い文脈での学習を妨げている。
近年のモデル手法では、モデルの内部動作をリバースエンジニアリングすることで、ポストホック解釈可能性法を提供することでこの問題に対処している。
本稿では,目的関数に知識を注入することで,モデルの結果に特徴的影響を制御できるマルチクレータ非依存手法を提案する。
論文 参考訳(メタデータ) (2021-11-28T09:41:13Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Causality-aware counterfactual confounding adjustment for feature
representations learned by deep models [14.554818659491644]
因果モデリングは機械学習(ML)における多くの課題に対する潜在的な解決策として認識されている。
深層ニューラルネットワーク(DNN)モデルによって学習された特徴表現を分解するために、最近提案された対実的アプローチが依然として使われている方法について説明する。
論文 参考訳(メタデータ) (2020-04-20T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。