論文の概要: A Pragmatic Look at Deep Imitation Learning
- arxiv url: http://arxiv.org/abs/2108.01867v1
- Date: Wed, 4 Aug 2021 06:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:22:29.398673
- Title: A Pragmatic Look at Deep Imitation Learning
- Title(参考訳): 深い模倣学習を実践的に見る
- Authors: Kai Arulkumaran, Dan Ogawa Lillrank
- Abstract要約: GAIL(Generative Adversarial mimicion Learning)アルゴリズムは、スケーラブルな模倣学習手法の開発に拍車をかけた。
本稿では,GAILと関連する模倣学習アルゴリズムを実践的に検討する。
提案手法は,提案手法を統一した実験装置で実装し,自動調整し,競合する手法の公正な評価を行う。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The introduction of the generative adversarial imitation learning (GAIL)
algorithm has spurred the development of scalable imitation learning approaches
using deep neural networks. The GAIL objective can be thought of as 1) matching
the expert policy's state distribution; 2) penalising the learned policy's
state distribution; and 3) maximising entropy. While theoretically motivated,
in practice GAIL can be difficult to apply, not least due to the instabilities
of adversarial training. In this paper, we take a pragmatic look at GAIL and
related imitation learning algorithms. We implement and automatically tune a
range of algorithms in a unified experimental setup, presenting a fair
evaluation between the competing methods. From our results, our primary
recommendation is to consider non-adversarial methods. Furthermore, we discuss
the common components of imitation learning objectives, and present promising
avenues for future research.
- Abstract(参考訳): gail(generative adversarial imitation learning)アルゴリズムの導入は、ディープニューラルネットワークを用いたスケーラブルな模倣学習手法の開発を促した。
GAILの目的は、1)専門家の政策の状態分布に一致すること、2)学習された政策の状態分布を解析すること、3)エントロピーの最大化である。
理論上はモチベーションが高いが、実際にはGAILは適用が困難であり、少なくとも対人訓練の不安定さのためである。
本稿では,gailと関連する模倣学習アルゴリズムについて実用的考察を行う。
我々は,様々なアルゴリズムを統一的な実験環境に実装し,自動的にチューニングし,競合する手法間で公正な評価を行う。
以上の結果から,非敵的手法を検討することが主な推奨事項である。
さらに,模倣学習目標の共通要素について議論し,今後の研究に期待できる道筋を示す。
関連論文リスト
- RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。
現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。
RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-08-21T07:20:48Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - Structure learning in polynomial time: Greedy algorithms, Bregman
information, and exponential families [12.936601424755944]
DAGを学習するための一般的なグリーディスコアに基づくアルゴリズムについて検討する。
DAGモデルを学習するための最近のアルゴリズム時間アルゴリズムが,このアルゴリズムの特別な例であることを示す。
この観測は、ブレグマン発散と指数族との双対性に基づく新しいスコア関数と最適条件を示唆する。
論文 参考訳(メタデータ) (2021-10-10T06:37:51Z) - Emphatic Algorithms for Deep Reinforcement Learning [43.17171330951343]
時間差学習アルゴリズムは関数近似とオフポリシーサンプリングを組み合わせると不安定になる。
強調時間差(ETD($lambda$)アルゴリズム)は、TD($lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。
本稿では,ETD($lambda$)をフォワードビュー・マルチステップ・リターンを用いた一般的な深層強化学習アルゴリズムに適用することにより,性能が低下することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:11:39Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - Identifying Co-Adaptation of Algorithmic and Implementational
Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of
Inference-based Algorithms [15.338931971492288]
我々は、アルゴリズムの革新と実装決定を分離するために、一連の推論に基づくアクター批判アルゴリズムに焦点を当てる。
実装の詳細がアルゴリズムの選択に一致すると、パフォーマンスが大幅に低下します。
結果は、どの実装の詳細がアルゴリズムと共適応され、共進化しているかを示す。
論文 参考訳(メタデータ) (2021-03-31T17:55:20Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Tighter Generalization Bounds for Iterative Differentially Private
Learning Algorithms [95.73230376153872]
本稿では,反復学習アルゴリズムにおける一般化とプライバシ保護の関係を2つのステップで検討する。
我々は、$(varepsilon, delta)$-differential privacyは、マルチデータベース学習アルゴリズムに縛られる平均的な一般化を意味することを証明している。
次に,ほとんどの学習アルゴリズムが共有する反復的な性質が,プライバシーの保護とさらなる一般化にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2020-07-18T09:12:03Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。