論文の概要: Model-based Trajectory Stitching for Improved Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2211.11603v1
- Date: Mon, 21 Nov 2022 16:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:36:26.200123
- Title: Model-based Trajectory Stitching for Improved Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習のためのモデルベース軌道スティッチ
- Authors: Charles A. Hepburn and Giovanni Montana
- Abstract要約: モデルに基づくデータ拡張戦略であるトラジェクトリ・スティッチ(TS)を提案する。
TSは、以前に切断された状態と結合する目に見えないアクションを導入する。
このデータ拡張戦略と行動クローニング(BC)を併用することにより,行動閉ざされたポリシーを改善できることを示す。
- 参考スコア(独自算出の注目度): 7.462336024223669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world applications, collecting large and high-quality datasets
may be too costly or impractical. Offline reinforcement learning (RL) aims to
infer an optimal decision-making policy from a fixed set of data. Getting the
most information from historical data is then vital for good performance once
the policy is deployed. We propose a model-based data augmentation strategy,
Trajectory Stitching (TS), to improve the quality of sub-optimal historical
trajectories. TS introduces unseen actions joining previously disconnected
states: using a probabilistic notion of state reachability, it effectively
`stitches' together parts of the historical demonstrations to generate new,
higher quality ones. A stitching event consists of a transition between a pair
of observed states through a synthetic and highly probable action. New actions
are introduced only when they are expected to be beneficial, according to an
estimated state-value function. We show that using this data augmentation
strategy jointly with behavioural cloning (BC) leads to improvements over the
behaviour-cloned policy from the original dataset. Improving over the BC policy
could then be used as a launchpad for online RL through planning and
demonstration-guided RL.
- Abstract(参考訳): 多くの現実世界のアプリケーションでは、大規模で高品質なデータセットを収集するにはコストがかかりすぎるか実用的でない。
オフライン強化学習(RL)は、一定のデータセットから最適な意思決定ポリシーを推論することを目的としている。
履歴データから最大の情報を取得することは、ポリシーがデプロイされた後、優れたパフォーマンスに不可欠である。
本稿では,モデルに基づくデータ拡張戦略であるts(trail stitching)を提案する。
状態到達可能性(state reachability)という確率論的概念を用いることで、歴史的なデモンストレーションの一部を効果的に統合して、新しい高品質な状態を生成する。
縫合イベントは、一対の観察された状態間の遷移からなり、合成的かつ高い確率で作用する。
新しいアクションは、推定された状態値関数に従って、有益であると期待される場合にのみ導入される。
我々は、このデータ拡張戦略と行動クローニング(BC)を併用することで、元のデータセットから行動閉ざされたポリシーを改善することを示す。
BCポリシーの改善は、計画とデモ誘導RLを通じてオンラインRLのローンチパッドとして使用できる。
関連論文リスト
- Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and
Stable Online Fine-Tuning [7.462336024223669]
主な課題は、データに存在しないアクションに対する過大評価バイアスを克服することである。
このバイアスを減らすための簡単な方法は、行動的クローニング(BC)を通じてポリシー制約を導入することである。
私たちは、BCコンポーネントの影響を減らしながら、ポリシーをオフラインでトレーニングし続けることで、洗練されたポリシーを作成できることを実証します。
論文 参考訳(メタデータ) (2022-11-21T19:10:27Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Offline Reinforcement Learning for Road Traffic Control [12.251816544079306]
モデルベースの学習フレームワークであるA-DACを構築し、データ不確実性に対処するために、悲観的なコストを組み込んだデータセットからマルコフ決定プロセス(MDP)を推論する。
A-DACは、サイズやバッチ収集ポリシーによって異なる複数のデータセットを用いて、複雑な信号化ラウンドアバウトで評価される。
論文 参考訳(メタデータ) (2022-01-07T09:55:21Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。