論文の概要: imitation: Clean Imitation Learning Implementations
- arxiv url: http://arxiv.org/abs/2211.11972v1
- Date: Tue, 22 Nov 2022 03:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:49:49.798812
- Title: imitation: Clean Imitation Learning Implementations
- Title(参考訳): 模倣:クリーンな模倣学習実装
- Authors: Adam Gleave, Mohammad Taufeeque, Juan Rocamonde, Erik Jenner, Steven
H. Wang, Sam Toyer, Maximilian Ernestus, Nora Belrose, Scott Emmons, Stuart
Russell
- Abstract要約: 模倣は、PyTorchにおける模倣と報酬学習アルゴリズムのオープンソース実装を提供する。
3つの逆強化学習(IRL)アルゴリズム、3つの模倣学習アルゴリズム、選好比較を含む。
- 参考スコア(独自算出の注目度): 7.7064239657103375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: imitation provides open-source implementations of imitation and reward
learning algorithms in PyTorch. We include three inverse reinforcement learning
(IRL) algorithms, three imitation learning algorithms and a preference
comparison algorithm. The implementations have been benchmarked against
previous results, and automated tests cover 98% of the code. Moreover, the
algorithms are implemented in a modular fashion, making it simple to develop
novel algorithms in the framework. Our source code, including documentation and
examples, is available at https://github.com/HumanCompatibleAI/imitation
- Abstract(参考訳): 模倣はpytorchの模倣と報酬学習アルゴリズムのオープンソース実装を提供する。
3つの逆強化学習(irl)アルゴリズム,3つの模倣学習アルゴリズム,選好比較アルゴリズムを含む。
実装は以前の結果とベンチマークされ、自動テストはコードの98%をカバーする。
さらに、これらのアルゴリズムはモジュラー方式で実装されており、フレームワークで新しいアルゴリズムを簡単に開発できる。
ドキュメントや例を含む私たちのソースコードは、https://github.com/humancompatibleai/imitationで利用可能です。
関連論文リスト
- Beryllium: Neural Search for Algorithm Implementations [14.11934122454653]
我々は,p言語と命名された新しい言語を設計し,p言語のための静的解析器を設計し,アルゴリズム記述から情報を自動的に抽出する。
我々は,p言語(p-code)とソースコードの出力を自己教師付き機械学習手法を用いて共通ベクトル空間に埋め込んだ。
Berylliumは、CとJavaの両方で最先端のコード検索ツールを著しく上回った。
論文 参考訳(メタデータ) (2023-05-25T03:49:36Z) - Tree-Based Adaptive Model Learning [62.997667081978825]
我々はKearns-Vazirani学習アルゴリズムを拡張し、時間とともに変化するシステムを扱う。
本稿では,学習前の動作を再利用し,更新し,LearnerLibライブラリに実装し,大規模な実例で評価する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T21:24:22Z) - The CLRS Algorithmic Reasoning Benchmark [28.789225199559834]
アルゴリズムの学習表現は機械学習の新たな領域であり、ニューラルネットワークから古典的なアルゴリズムで概念をブリッジしようとしている。
本稿では,従来のアルゴリズムを包括するCLRS Algorithmic Reasoning Benchmarkを提案する。
我々のベンチマークは、ソート、探索、動的プログラミング、グラフアルゴリズム、文字列アルゴリズム、幾何アルゴリズムなど、様々なアルゴリズムの推論手順にまたがっている。
論文 参考訳(メタデータ) (2022-05-31T09:56:44Z) - A modular software framework for the design and implementation of
ptychography algorithms [55.41644538483948]
我々は,Pychographyデータセットをシミュレートし,最先端の再構築アルゴリズムをテストすることを目的とした,新しいptychographyソフトウェアフレームワークであるSciComを紹介する。
その単純さにもかかわらず、ソフトウェアはPyTorchインターフェースによる高速化処理を利用する。
結果は合成データと実データの両方で示される。
論文 参考訳(メタデータ) (2022-05-06T16:32:37Z) - Practical, Provably-Correct Interactive Learning in the Realizable
Setting: The Power of True Believers [12.09273192079783]
我々は、対話型学習を実現可能な設定で検討し、最適な腕の識別からアクティブな分類に至るまでの問題に対処する一般的な枠組みを開発する。
我々は,最小限の値と対数係数とを一致させる,計算効率のよい新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-11-09T02:33:36Z) - A Pragmatic Look at Deep Imitation Learning [0.3626013617212666]
我々は6つの異なる対向的模倣学習アルゴリズムを再実装する。
広く使われている専門的軌跡データセットで評価する。
GAILは、様々なサンプルサイズにわたって、一貫してよく機能する。
論文 参考訳(メタデータ) (2021-08-04T06:33:10Z) - The Bayesian Learning Rule [14.141964578853262]
我々は、多くの機械学習アルゴリズムが、emphBayesian Learning Ruleと呼ばれる単一のアルゴリズムの特定の例であることを示した。
この規則はベイズ原理から派生したもので、最適化、ディープラーニング、グラフィカルモデルといった分野から幅広いアルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-07-09T17:28:55Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - Rethinking Few-Shot Image Classification: a Good Embedding Is All You
Need? [72.00712736992618]
メタトレーニングセット上で教師付きあるいは自己教師型表現を学習する単純なベースラインが、最先端の数ショット学習方法より優れていることを示す。
追加の増量は自己蒸留によって達成できる。
我々は,この発見が,画像分類ベンチマークとメタ学習アルゴリズムの役割を再考する動機となっていると考えている。
論文 参考訳(メタデータ) (2020-03-25T17:58:42Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。