論文の概要: A Pragmatic Look at Deep Imitation Learning
- arxiv url: http://arxiv.org/abs/2108.01867v2
- Date: Wed, 20 Sep 2023 01:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 02:57:19.296423
- Title: A Pragmatic Look at Deep Imitation Learning
- Title(参考訳): 深い模倣学習を実践的に見る
- Authors: Kai Arulkumaran, Dan Ogawa Lillrank
- Abstract要約: 我々は6つの異なる対向的模倣学習アルゴリズムを再実装する。
広く使われている専門的軌跡データセットで評価する。
GAILは、様々なサンプルサイズにわたって、一貫してよく機能する。
- 参考スコア(独自算出の注目度): 0.3626013617212666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The introduction of the generative adversarial imitation learning (GAIL)
algorithm has spurred the development of scalable imitation learning approaches
using deep neural networks. Many of the algorithms that followed used a similar
procedure, combining on-policy actor-critic algorithms with inverse
reinforcement learning. More recently there have been an even larger breadth of
approaches, most of which use off-policy algorithms. However, with the breadth
of algorithms, everything from datasets to base reinforcement learning
algorithms to evaluation settings can vary, making it difficult to fairly
compare them. In this work we re-implement 6 different IL algorithms, updating
3 of them to be off-policy, base them on a common off-policy algorithm (SAC),
and evaluate them on a widely-used expert trajectory dataset (D4RL) for the
most common benchmark (MuJoCo). After giving all algorithms the same
hyperparameter optimisation budget, we compare their results for a range of
expert trajectories. In summary, GAIL, with all of its improvements,
consistently performs well across a range of sample sizes, AdRIL is a simple
contender that performs well with one important hyperparameter to tune, and
behavioural cloning remains a strong baseline when data is more plentiful.
- Abstract(参考訳): gail(generative adversarial imitation learning)アルゴリズムの導入は、ディープニューラルネットワークを用いたスケーラブルな模倣学習手法の開発を促した。
続くアルゴリズムの多くは、オンポリシー・アクタ-クリティックアルゴリズムと逆強化学習を組み合わせた同様の手順を用いた。
最近では、もっと大きなアプローチがあり、そのほとんどは、非政治的なアルゴリズムを使っている。
しかし、アルゴリズムの広さによって、データセットからベース強化学習アルゴリズム、評価設定に至るまで、あらゆるものが異なるため、適切な比較が困難になる。
この作業では、6つの異なるilアルゴリズムを再実装し、3つをオフポリシーに更新し、それらを共通オフポリシーアルゴリズム(sac)にベースとし、最も一般的なベンチマーク(mujoco)のために広く使われている専門家軌道データセット(d4rl)で評価します。
すべてのアルゴリズムに同じハイパーパラメータ最適化予算を与えた後、その結果をさまざまな専門家の軌跡と比較する。
要約すると、GAILはすべての改善を伴い、一連のサンプルサイズで一貫してよく機能するが、AdRILは1つの重要なハイパーパラメータをチューニングするためにうまく機能する単純な競合子であり、データが豊富である場合に行動的クローンは強力なベースラインのままである。
関連論文リスト
- RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。
現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。
RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-08-21T07:20:48Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - Structure learning in polynomial time: Greedy algorithms, Bregman
information, and exponential families [12.936601424755944]
DAGを学習するための一般的なグリーディスコアに基づくアルゴリズムについて検討する。
DAGモデルを学習するための最近のアルゴリズム時間アルゴリズムが,このアルゴリズムの特別な例であることを示す。
この観測は、ブレグマン発散と指数族との双対性に基づく新しいスコア関数と最適条件を示唆する。
論文 参考訳(メタデータ) (2021-10-10T06:37:51Z) - Emphatic Algorithms for Deep Reinforcement Learning [43.17171330951343]
時間差学習アルゴリズムは関数近似とオフポリシーサンプリングを組み合わせると不安定になる。
強調時間差(ETD($lambda$)アルゴリズム)は、TD($lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。
本稿では,ETD($lambda$)をフォワードビュー・マルチステップ・リターンを用いた一般的な深層強化学習アルゴリズムに適用することにより,性能が低下することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:11:39Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - Identifying Co-Adaptation of Algorithmic and Implementational
Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of
Inference-based Algorithms [15.338931971492288]
我々は、アルゴリズムの革新と実装決定を分離するために、一連の推論に基づくアクター批判アルゴリズムに焦点を当てる。
実装の詳細がアルゴリズムの選択に一致すると、パフォーマンスが大幅に低下します。
結果は、どの実装の詳細がアルゴリズムと共適応され、共進化しているかを示す。
論文 参考訳(メタデータ) (2021-03-31T17:55:20Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Tighter Generalization Bounds for Iterative Differentially Private
Learning Algorithms [95.73230376153872]
本稿では,反復学習アルゴリズムにおける一般化とプライバシ保護の関係を2つのステップで検討する。
我々は、$(varepsilon, delta)$-differential privacyは、マルチデータベース学習アルゴリズムに縛られる平均的な一般化を意味することを証明している。
次に,ほとんどの学習アルゴリズムが共有する反復的な性質が,プライバシーの保護とさらなる一般化にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2020-07-18T09:12:03Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。