論文の概要: Model-based trajectory stitching for improved behavioural cloning and
its applications
- arxiv url: http://arxiv.org/abs/2212.04280v1
- Date: Thu, 8 Dec 2022 14:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:57:46.619429
- Title: Model-based trajectory stitching for improved behavioural cloning and
its applications
- Title(参考訳): モデルに基づく軌道縫合による行動クローン化とその応用
- Authors: Charles A. Hepburn and Giovanni Montana
- Abstract要約: トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
- 参考スコア(独自算出の注目度): 7.462336024223669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioural cloning (BC) is a commonly used imitation learning method to
infer a sequential decision-making policy from expert demonstrations. However,
when the quality of the data is not optimal, the resulting behavioural policy
also performs sub-optimally once deployed. Recently, there has been a surge in
offline reinforcement learning methods that hold the promise to extract
high-quality policies from sub-optimal historical data. A common approach is to
perform regularisation during training, encouraging updates during policy
evaluation and/or policy improvement to stay close to the underlying data. In
this work, we investigate whether an offline approach to improving the quality
of the existing data can lead to improved behavioural policies without any
changes in the BC algorithm. The proposed data improvement approach -
Trajectory Stitching (TS) - generates new trajectories (sequences of states and
actions) by `stitching' pairs of states that were disconnected in the original
data and generating their connecting new action. By construction, these new
transitions are guaranteed to be highly plausible according to probabilistic
models of the environment, and to improve a state-value function. We
demonstrate that the iterative process of replacing old trajectories with new
ones incrementally improves the underlying behavioural policy. Extensive
experimental results show that significant performance gains can be achieved
using TS over BC policies extracted from the original data. Furthermore, using
the D4RL benchmarking suite, we demonstrate that state-of-the-art results are
obtained by combining TS with two existing offline learning methodologies
reliant on BC, model-based offline planning (MBOP) and policy constraint
(TD3+BC).
- Abstract(参考訳): 行動クローニング(Behavioural cloning, BC)は、専門家による実証から連続的な意思決定方針を推測する模擬学習法である。
しかし、データの品質が最適でない場合には、結果として生じる行動ポリシーも準最適にデプロイされる。
近年,サブ最適履歴データから高品質なポリシを抽出するという約束を守っているオフライン強化学習手法が急増している。
一般的なアプローチは、トレーニング中に定期化を行うことで、ポリシー評価やポリシー改善の更新が基礎となるデータに近づき続けるように促す。
本研究では,既存のデータの品質向上のためのオフラインアプローチが,bcアルゴリズムの変更を伴わない行動ポリシーの改善に繋がるかどうかを検討する。
提案するデータ改善アプローチトラジェクタリー・スティッチリング(ts) - 元のデータで切断され、接続された新しいアクションを生成する状態のペアを‘stitching’することで、新しい軌跡(状態とアクションのシーケンス)を生成する。
構築により、これらの新しい遷移は、環境の確率モデルに従って高い可算性を保証し、状態値関数を改善する。
古い軌道を新しい軌道に置き換える反復的なプロセスは、基礎となる行動ポリシーを段階的に改善する。
大規模な実験結果から,元のデータから抽出したBCポリシーよりもTSを用いることで,大幅な性能向上が達成できた。
さらに、d4rlベンチマークスイートを用いて、モデルベースオフライン計画(mbop)とポリシー制約(td3+bc)の2つの既存のオフライン学習方法論とtsを組み合わせることで、最先端の結果が得られることを示す。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Model-based Trajectory Stitching for Improved Offline Reinforcement
Learning [7.462336024223669]
モデルに基づくデータ拡張戦略であるトラジェクトリ・スティッチ(TS)を提案する。
TSは、以前に切断された状態と結合する目に見えないアクションを導入する。
このデータ拡張戦略と行動クローニング(BC)を併用することにより,行動閉ざされたポリシーを改善できることを示す。
論文 参考訳(メタデータ) (2022-11-21T16:00:39Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。