論文の概要: Uncertainty-driven Trajectory Truncation for Model-based Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.04660v1
- Date: Mon, 10 Apr 2023 15:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 14:32:23.348084
- Title: Uncertainty-driven Trajectory Truncation for Model-based Offline
Reinforcement Learning
- Title(参考訳): モデルベースオフライン強化学習のための不確実性駆動軌道切断法
- Authors: Junjie Zhang, Jiafei Lyu, Xiaoteng Ma, Jiangpeng Yan, Jun Yang, Le
Wan, Xiu Li
- Abstract要約: 不確実性のある軌道トラクション(TATU)を提案する。
TATUは、軌道に沿って蓄積された不確実性が大きすぎる場合、合成軌道を適応的に切断する。
TATUは性能を著しく改善し、多くの場合、大きなマージンで改善する。
- 参考スコア(独自算出の注目度): 15.697626468632784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Equipped with the trained environmental dynamics, model-based offline
reinforcement learning (RL) algorithms can often successfully learn good
policies from fixed-sized datasets, even some datasets with poor quality.
Unfortunately, however, it can not be guaranteed that the generated samples
from the trained dynamics model are reliable (e.g., some synthetic samples may
lie outside of the support region of the static dataset). To address this
issue, we propose Trajectory Truncation with Uncertainty (TATU), which
adaptively truncates the synthetic trajectory if the accumulated uncertainty
along the trajectory is too large. We theoretically show the performance bound
of TATU to justify its benefits. To empirically show the advantages of TATU, we
first combine it with two classical model-based offline RL algorithms, MOPO and
COMBO. Furthermore, we integrate TATU with several off-the-shelf model-free
offline RL algorithms, e.g., BCQ. Experimental results on the D4RL benchmark
show that TATU significantly improves their performance, often by a large
margin.
- Abstract(参考訳): トレーニングされた環境ダイナミクスを備えたモデルベースオフライン強化学習(RL)アルゴリズムは、品質の低いデータセットでさえも、固定サイズのデータセットから優れたポリシをうまく学習することができる。
しかし残念ながら、トレーニングされたダイナミクスモデルから生成されたサンプルが信頼できることは保証できない(例えば、いくつかの合成サンプルは静的データセットの支持領域の外側にあるかもしれない)。
この問題に対処するため, 軌道に沿って蓄積された不確かさが大きすぎる場合, 合成軌道を適応的に切断するトラジェクトリトラニケーション (TATU) を提案する。
理論的には、TATUの性能境界を示し、その利点を正当化する。
TATUの利点を実証的に示すために、まず2つの古典的モデルベースオフラインRLアルゴリズム、MOPOとCOMBOを組み合わせる。
さらに、TATUを市販のモデルなしオフラインRLアルゴリズム、例えばBCQと統合する。
D4RLベンチマーク実験の結果、TATUは性能を著しく改善し、しばしば大きなマージンで改善した。
関連論文リスト
- SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Look Beneath the Surface: Exploiting Fundamental Symmetry for
Sample-Efficient Offline RL [29.885978495034703]
オフライン強化学習(RL)は、事前にコンパイルされたデータセットからポリシーを学ぶことによって、現実世界のタスクに魅力的なアプローチを提供する。
しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。
システム力学の基本対称性を活用することで、小さなデータセット下でのオフラインRL性能を大幅に向上できるという新たな知見を提供する。
論文 参考訳(メタデータ) (2023-06-07T07:51:05Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Double Check Your State Before Trusting It: Confidence-Aware
Bidirectional Offline Model-Based Imagination [31.805991958408438]
トレーニングされた双方向ダイナミクスモデルとロールアウトポリシをダブルチェックで使用することにより,オフラインデータセットの強化を提案する。
提案手法は,信頼度を考慮した双方向オフラインモデルに基づくイマジネーションであり,信頼度の高いサンプルを生成し,任意のモデルレスオフラインRL法と組み合わせることができる。
論文 参考訳(メタデータ) (2022-06-16T08:00:44Z) - PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided
Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。
両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。
また,提案手法は報酬のない探索を効率的に行うことができる。
論文 参考訳(メタデータ) (2021-07-15T15:49:30Z) - Online and Offline Reinforcement Learning by Planning with a Learned
Model [15.8026041700727]
本稿では、モデルベースのポリシーと値改善演算子を用いて、既存のデータポイント上の新しい改善されたトレーニングターゲットを計算するReanalyseアルゴリズムについて述べる。
Reanalyseは環境相互作用のない実演から完全に学習するためにも利用できることを示す。
オフラインRLを含む任意のデータ予算に対して単一の統一アルゴリズムである MuZero Unplugged を導入する。
論文 参考訳(メタデータ) (2021-04-13T15:36:06Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。