Fugu-MT 論文翻訳(概要): The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning

論文の概要: The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.12527v2
Date: Fri, 29 Nov 2024 19:52:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.489165
Title: The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning
Title（参考訳）: オフラインモデルに基づく強化学習におけるエッジ・オブ・リーチ問題
Authors: Anya Sims, Cong Lu, Jakob Foerster, Yee Whye Teh,
Abstract要約: 学習力学モデルの改善に伴い,一般的なアルゴリズムがどのように機能するかを検討する。エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Learning (RAVL)を提案する。
参考スコア（独自算出の注目度）: 31.8260779160424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline reinforcement learning aims to train agents from pre-collected datasets. However, this comes with the added challenge of estimating the value of behaviors not covered in the dataset. Model-based methods offer a potential solution by training an approximate dynamics model, which then allows collection of additional synthetic data via rollouts in this model. The prevailing theory treats this approach as online RL in an approximate dynamics model, and any remaining performance gap is therefore understood as being due to dynamics model errors. In this paper, we analyze this assumption and investigate how popular algorithms perform as the learned dynamics model is improved. In contrast to both intuition and theory, if the learned dynamics model is replaced by the true error-free dynamics, existing model-based methods completely fail. This reveals a key oversight: The theoretical foundations assume sampling of full horizon rollouts in the learned dynamics model; however, in practice, the number of model-rollout steps is aggressively reduced to prevent accumulating errors. We show that this truncation of rollouts results in a set of edge-of-reach states at which we are effectively ``bootstrapping from the void.'' This triggers pathological value overestimation and complete performance collapse. We term this the edge-of-reach problem. Based on this new insight, we fill important gaps in existing theory, and reveal how prior model-based methods are primarily addressing the edge-of-reach problem, rather than model-inaccuracy as claimed. Finally, we propose Reach-Aware Value Learning (RAVL), a simple and robust method that directly addresses the edge-of-reach problem and hence - unlike existing methods - does not fail as the dynamics model is improved. Code open-sourced at: github.com/anyasims/edge-of-reach.
Abstract（参考訳）: オフライン強化学習は、事前に収集されたデータセットからエージェントを訓練することを目的としている。しかしこれは、データセットにカバーされていない振る舞いの価値を推定する、という追加の課題が伴う。モデルに基づく手法は、近似力学モデルをトレーニングすることで潜在的な解決策を提供する。一般的な理論では、このアプローチを近似力学モデルにおけるオンラインRLとして扱い、残りの性能差は力学モデルエラーによるものであると解釈される。本稿では,この仮定を解析し,学習力学モデルの改善に伴い,一般的なアルゴリズムがどのように機能するかを検討する。直観と理論の両方とは対照的に、学習された力学モデルが真のエラーのない力学に置き換えられた場合、既存のモデルベースの手法は完全に失敗する。理論の基礎は、学習力学モデルにおける完全な水平ロールアウトのサンプリングを前提としているが、実際には、モデルロールアウトのステップの数を積極的に減らし、エラーの蓄積を防ぐ。このロールアウトの切り離しは、事実上‘bootstrapping from the void’となる一連のエッジ・オブ・リーチ状態をもたらすことを示す。「」これは、病理的価値過大評価と完全なパフォーマンスの崩壊を引き起こす。これをエッジ・オブ・リーチ問題と呼ぶ。この新たな知見に基づき、我々は既存の理論における重要なギャップを埋め、モデルベース手法が主張するモデル不正確性ではなく、主にエッジ・オブ・リーチ問題にどのように対処しているかを明らかにする。最後に,Reach-Aware Value Learning (RAVL)を提案する。これは単純で堅牢な手法で,エッジ・オブ・リーチ問題に直接対処する。コードは、github.com/anyasims/edge-of-reachでオープンソース化された。

関連論文リスト

Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文参考訳（メタデータ） (2025-05-10T16:55:03Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
Neural Abstractions [72.42530499990028]
本稿では,ニューラルネットワークを用いた非線形力学モデルの安全性検証手法を提案する。提案手法は,既存のベンチマーク非線形モデルにおいて,成熟度の高いFlow*と同等に動作することを示す。
論文参考訳（メタデータ） (2023-01-27T12:38:09Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
A Unified Framework for Alternating Offline Model Training and Policy Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文参考訳（メタデータ） (2022-10-12T04:58:51Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Multicriteria interpretability driven Deep Learning [0.0]
ディープラーニングの手法はパフォーマンスで有名だが、その解釈可能性の欠如は、高い文脈での学習を妨げている。近年のモデル手法では、モデルの内部動作をリバースエンジニアリングすることで、ポストホック解釈可能性法を提供することでこの問題に対処している。本稿では,目的関数に知識を注入することで,モデルの結果に特徴的影響を制御できるマルチクレータ非依存手法を提案する。
論文参考訳（メタデータ） (2021-11-28T09:41:13Z)
Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文参考訳（メタデータ） (2021-10-08T13:51:34Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文参考訳（メタデータ） (2021-03-24T06:01:55Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文参考訳（メタデータ） (2021-02-16T17:21:55Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文参考訳（メタデータ） (2020-05-16T19:18:10Z)
Causality-aware counterfactual confounding adjustment for feature representations learned by deep models [14.554818659491644]
因果モデリングは機械学習(ML)における多くの課題に対する潜在的な解決策として認識されている。深層ニューラルネットワーク(DNN)モデルによって学習された特徴表現を分解するために、最近提案された対実的アプローチが依然として使われている方法について説明する。
論文参考訳（メタデータ） (2020-04-20T17:37:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。