論文の概要: A Strong Baseline for Batch Imitation Learning
- arxiv url: http://arxiv.org/abs/2302.02788v1
- Date: Mon, 6 Feb 2023 14:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:38:48.875616
- Title: A Strong Baseline for Batch Imitation Learning
- Title(参考訳): バッチ模倣学習のための強固なベースライン
- Authors: Matthew Smith, Lucas Maystre, Zhenwen Dai, Kamil Ciosek
- Abstract要約: 厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
- 参考スコア(独自算出の注目度): 25.392006064406967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation of expert behaviour is a highly desirable and safe approach to the
problem of sequential decision making. We provide an easy-to-implement, novel
algorithm for imitation learning under a strict data paradigm, in which the
agent must learn solely from data collected a priori. This paradigm allows our
algorithm to be used for environments in which safety or cost are of critical
concern. Our algorithm requires no additional hyper-parameter tuning beyond any
standard batch reinforcement learning (RL) algorithm, making it an ideal
baseline for such data-strict regimes. Furthermore, we provide formal sample
complexity guarantees for the algorithm in finite Markov Decision Problems. In
doing so, we formally demonstrate an unproven claim from Kearns & Singh (1998).
On the empirical side, our contribution is twofold. First, we develop a
practical, robust and principled evaluation protocol for offline RL methods,
making use of only the dataset provided for model selection. This stands in
contrast to the vast majority of previous works in offline RL, which tune
hyperparameters on the evaluation environment, limiting the practical
applicability when deployed in new, cost-critical environments. As such, we
establish precedent for the development and fair evaluation of offline RL
algorithms. Second, we evaluate our own algorithm on challenging continuous
control benchmarks, demonstrating its practical applicability and
competitiveness with state-of-the-art performance, despite being a simpler
algorithm.
- Abstract(参考訳): 専門家の行動の模倣は、シーケンシャルな意思決定の問題に対する非常に望ましい、かつ安全なアプローチである。
我々は、厳密なデータパラダイムの下で、エージェントが事前収集したデータからのみ学習しなければならない、実装が容易で斬新な模倣学習アルゴリズムを提供する。
このパラダイムは,安全性やコストが重要となる環境において,我々のアルゴリズムを利用できる。
我々のアルゴリズムは、標準バッチ強化学習(RL)アルゴリズム以外の追加のハイパーパラメータチューニングを必要としないため、そのようなデータ制限機構の理想的なベースラインとなる。
さらに,有限マルコフ決定問題におけるアルゴリズムの形式的サンプル複雑性を保証する。
そのような場合、Kearns & Singh (1998) の証明されていない主張を正式に証明する。
経験的な面では、私たちの貢献は2倍です。
まず,モデル選択のためのデータセットのみを用いて,オフラインrlメソッドのための実用的でロバストで原則化された評価プロトコルを開発する。
これは、新しいコストクリティカルな環境にデプロイする際の実用的な適用性を制限し、評価環境のハイパーパラメータをチューニングするオフラインRLにおける以前のほとんどの作業とは対照的である。
そこで我々は,オフラインRLアルゴリズムの開発と評価の先例を確立した。
第2に,連続制御ベンチマークに挑戦するアルゴリズムを評価し,より単純なアルゴリズムであるにもかかわらず,その実用的適用性と最先端性能との競争力を実証する。
関連論文リスト
- On Sample-Efficient Offline Reinforcement Learning: Data Diversity,
Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。
オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-06T20:52:04Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided
Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。
両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。
また,提案手法は報酬のない探索を効率的に行うことができる。
論文 参考訳(メタデータ) (2021-07-15T15:49:30Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。