論文の概要: SUMO: Search-Based Uncertainty Estimation for Model-Based Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.12970v2
- Date: Tue, 12 Nov 2024 13:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:16:33.936889
- Title: SUMO: Search-Based Uncertainty Estimation for Model-Based Offline Reinforcement Learning
- Title(参考訳): SUMO:モデルに基づくオフライン強化学習のための探索に基づく不確実性推定
- Authors: Zhongjian Qiao, Jiafei Lyu, Kechen Jiao, Qi Liu, Xiu Li,
- Abstract要約: 代案としてtextbfModel ベースの textbfOffline RL (SUMO) に対する textbfSearch ベースの textbfUncertainty 推定法を提案する。
私たちのコードは利用可能で、さらなる研究と開発のためにオープンソースになります。
- 参考スコア(独自算出の注目度): 27.701895830821197
- License:
- Abstract: The performance of offline reinforcement learning (RL) suffers from the limited size and quality of static datasets. Model-based offline RL addresses this issue by generating synthetic samples through a dynamics model to enhance overall performance. To evaluate the reliability of the generated samples, uncertainty estimation methods are often employed. However, model ensemble, the most commonly used uncertainty estimation method, is not always the best choice. In this paper, we propose a \textbf{S}earch-based \textbf{U}ncertainty estimation method for \textbf{M}odel-based \textbf{O}ffline RL (SUMO) as an alternative. SUMO characterizes the uncertainty of synthetic samples by measuring their cross entropy against the in-distribution dataset samples, and uses an efficient search-based method for implementation. In this way, SUMO can achieve trustworthy uncertainty estimation. We integrate SUMO into several model-based offline RL algorithms including MOPO and Adapted MOReL (AMOReL), and provide theoretical analysis for them. Extensive experimental results on D4RL datasets demonstrate that SUMO can provide more accurate uncertainty estimation and boost the performance of base algorithms. These indicate that SUMO could be a better uncertainty estimator for model-based offline RL when used in either reward penalty or trajectory truncation. Our code is available and will be open-source for further research and development.
- Abstract(参考訳): オフライン強化学習(RL)の性能は、静的データセットのサイズと品質に制限がある。
モデルベースのオフラインRLは、全体的なパフォーマンスを高めるために、動的モデルを通じて合成サンプルを生成することでこの問題に対処する。
生成したサンプルの信頼性を評価するために,不確実性推定法がよく用いられる。
しかし、最もよく使われる不確実性推定法であるモデルアンサンブルは必ずしも最良の選択ではない。
本稿では,代案として, \textbf{S}earch-based \textbf{U}ncertainty Estimation method for \textbf{M}odel-based \textbf{O}ffline RL (SUMO)を提案する。
SUMOは, 分布内データセットに対するクロスエントロピーを測定することで, 合成試料の不確かさを特徴づけ, 効率的な探索法を用いて実装する。
このようにして、SUMOは信頼できる不確実性推定を達成できる。
我々は SUMO を MOPO や Adapted MOReL (AMOReL) などのモデルベースオフライン RL アルゴリズムに統合し,その理論的解析を行う。
D4RLデータセットの大規模な実験結果から、SUMOはより正確な不確実性推定を提供し、ベースアルゴリズムの性能を高めることができることが示された。
これらの結果から,SUMOは報酬ペナルティやトラジェクティブ・トランケーションに使用する場合,モデルベースオフラインRLに対してより良い不確実性推定器となる可能性が示唆された。
私たちのコードは利用可能で、さらなる研究と開発のためにオープンソースになります。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Source-Free Domain-Invariant Performance Prediction [68.39031800809553]
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
論文 参考訳(メタデータ) (2024-08-05T03:18:58Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning [14.952800864366512]
保守主義は、正確なオフラインデータと不正確なモデルデータのバランスをとるために、アルゴリズムに組み込まれるべきです。
本稿では、モデル不確実性を推定することなく、milDly cOnservative Model-bAsed offlINe RLアルゴリズム(DOMAIN)を提案する。
大規模な実験の結果、DOMAINはD4RLデータセットのベンチマークにおいて、以前のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-09-16T08:39:28Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。