論文の概要: VIPO: Value Function Inconsistency Penalized Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.11944v1
- Date: Wed, 16 Apr 2025 10:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:36:55.514721
- Title: VIPO: Value Function Inconsistency Penalized Offline Reinforcement Learning
- Title(参考訳): VIPO: オフライン強化学習における価値関数の不整合
- Authors: Xuyang Chen, Guojian Wang, Keyu Yan, Lin Zhao,
- Abstract要約: VIPOは、価値推定から自己教師付きフィードバックを取り入れて、モデルトレーニングを強化する、新しいモデルベースのオフラインRLアルゴリズムである。
VIPOはD4RLとNeoRLベンチマークのほぼすべてのタスクで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 10.834719840008308
- License:
- Abstract: Offline reinforcement learning (RL) learns effective policies from pre-collected datasets, offering a practical solution for applications where online interactions are risky or costly. Model-based approaches are particularly advantageous for offline RL, owing to their data efficiency and generalizability. However, due to inherent model errors, model-based methods often artificially introduce conservatism guided by heuristic uncertainty estimation, which can be unreliable. In this paper, we introduce VIPO, a novel model-based offline RL algorithm that incorporates self-supervised feedback from value estimation to enhance model training. Specifically, the model is learned by additionally minimizing the inconsistency between the value learned directly from the offline data and the one estimated from the model. We perform comprehensive evaluations from multiple perspectives to show that VIPO can learn a highly accurate model efficiently and consistently outperform existing methods. It offers a general framework that can be readily integrated into existing model-based offline RL algorithms to systematically enhance model accuracy. As a result, VIPO achieves state-of-the-art performance on almost all tasks in both D4RL and NeoRL benchmarks.
- Abstract(参考訳): オフライン強化学習(RL)は、事前コンパイルされたデータセットから効果的なポリシを学び、オンラインインタラクションがリスクやコストのかかるアプリケーションに実用的なソリューションを提供する。
モデルベースのアプローチは、特にオフラインのRLには有利である。
しかし、本質的なモデル誤差のため、モデルに基づく手法は、しばしばヒューリスティックな不確実性推定によって導かれる保守性を人工的に導入するが、信頼できない。
本稿では,自己教師型フィードバックを付加したモデルベースオフラインRLアルゴリズムであるVIPOを紹介する。
具体的には、オフラインデータから直接得られた値と、モデルから推定された値との矛盾を最小化することにより、モデルを学習する。
複数の視点から総合的な評価を行い、VIPOが極めて正確なモデルを効率的に学習し、既存の手法より一貫して優れていることを示す。
既存のモデルベースのオフラインRLアルゴリズムに容易に統合でき、モデル精度を体系的に向上できる一般的なフレームワークを提供する。
その結果、VIPOはD4RLとNeoRLベンチマークのほぼすべてのタスクで最先端のパフォーマンスを達成した。
関連論文リスト
- Model-based Offline Reinforcement Learning with Lower Expectile Q-Learning [6.345851712811528]
我々は、新しいモデルに基づくオフラインRL手法、Low expectile Q-learning (LEQ)を導入する。
LEQは、$lambda$-returnsの低い期待回帰による低バイアスモデルベースの値推定を提供する。
我々の研究は、低期待の回帰、$lambda$-returns、オフラインデータに対する批判的トレーニングがLEQにとって重要であることを示した。
論文 参考訳(メタデータ) (2024-06-30T13:44:59Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Double Check Your State Before Trusting It: Confidence-Aware
Bidirectional Offline Model-Based Imagination [31.805991958408438]
トレーニングされた双方向ダイナミクスモデルとロールアウトポリシをダブルチェックで使用することにより,オフラインデータセットの強化を提案する。
提案手法は,信頼度を考慮した双方向オフラインモデルに基づくイマジネーションであり,信頼度の高いサンプルを生成し,任意のモデルレスオフラインRL法と組み合わせることができる。
論文 参考訳(メタデータ) (2022-06-16T08:00:44Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。