論文の概要: DERAIL: Diagnostic Environments for Reward And Imitation Learning
- arxiv url: http://arxiv.org/abs/2012.01365v1
- Date: Wed, 2 Dec 2020 18:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 04:12:05.092933
- Title: DERAIL: Diagnostic Environments for Reward And Imitation Learning
- Title(参考訳): DERAIL:Reward and Imitation Learningのための診断環境
- Authors: Pedro Freire, Adam Gleave, Sam Toyer, Stuart Russell
- Abstract要約: アルゴリズム性能の個々の面を個別にテストする一連の診断タスクを開発する。
その結果,アルゴリズムの性能は実装の詳細に非常に敏感であることが確認された。
ケーススタディは、スイートが設計上の欠陥を特定し、候補ソリューションを迅速に評価する方法を示している。
- 参考スコア(独自算出の注目度): 9.099589602551573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of many real-world tasks is complex and difficult to
procedurally specify. This makes it necessary to use reward or imitation
learning algorithms to infer a reward or policy directly from human data.
Existing benchmarks for these algorithms focus on realism, testing in complex
environments. Unfortunately, these benchmarks are slow, unreliable and cannot
isolate failures. As a complementary approach, we develop a suite of simple
diagnostic tasks that test individual facets of algorithm performance in
isolation. We evaluate a range of common reward and imitation learning
algorithms on our tasks. Our results confirm that algorithm performance is
highly sensitive to implementation details. Moreover, in a case-study into a
popular preference-based reward learning implementation, we illustrate how the
suite can pinpoint design flaws and rapidly evaluate candidate solutions. The
environments are available at https://github.com/HumanCompatibleAI/seals .
- Abstract(参考訳): 多くの現実世界のタスクの目的は複雑で手続き的に特定することが難しい。
これにより、報酬または模倣学習アルゴリズムを使用して、人間のデータから直接報酬またはポリシーを推測する必要がある。
これらのアルゴリズムの既存のベンチマークは、複雑な環境でのテスト、リアリズムに焦点を当てている。
残念ながら、これらのベンチマークは遅く、信頼性がなく、障害を分離できない。
補完的アプローチとして,個別のアルゴリズム性能を独立してテストする簡易な診断タスク群を開発した。
タスク上での報酬と模倣学習のアルゴリズムを多岐にわたって評価する。
その結果、アルゴリズムの性能は実装の詳細に非常に敏感であることが判明した。
さらに、一般的な嗜好に基づく報酬学習実装へのケーススタディでは、スイートが設計上の欠陥を特定し、候補ソリューションを迅速に評価する方法について説明する。
環境はhttps://github.com/HumanCompatibleAI/sealsで入手できる。
関連論文リスト
- A Human-Centered Approach for Improving Supervised Learning [0.44378250612683995]
本稿では、パフォーマンス、時間、リソースの制約のバランスをとる方法を示す。
この研究のもう1つの目標は、人間中心のアプローチを用いて、エンサンブルスをより説明しやすく、理解しやすくすることである。
論文 参考訳(メタデータ) (2024-10-14T10:27:14Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Automated Decision-based Adversarial Attacks [48.01183253407982]
我々は、実用的で挑戦的な意思決定ベースのブラックボックスの敵意設定を考える。
この設定では、攻撃者はターゲットモデルに問い合わせるだけで最終分類ラベルを取得できる。
意思決定に基づく攻撃アルゴリズムを自動的に発見する。
論文 参考訳(メタデータ) (2021-05-09T13:15:10Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Learning to Actively Learn: A Robust Approach [22.75298609290053]
本研究では,アクティブラーニングや純粋探索型マルチアームバンディットといった適応データ収集タスクのアルゴリズム設計手法を提案する。
我々の適応アルゴリズムは、情報理論の下界から導かれる問題の同値クラスに対する逆学習によって学習される。
我々は,訓練手順の安定性と有効性を正当化するための合成実験を行い,実データから導出される課題について評価する。
論文 参考訳(メタデータ) (2020-10-29T06:48:22Z) - Fast and stable MAP-Elites in noisy domains using deep grids [1.827510863075184]
Deep-Grid MAP-ElitesはMAP-Elitesアルゴリズムの変種である。
この単純なアプローチは、適合性最適化の観点から競争性能を達成しつつ、動作記述子のノイズに対する耐性が著しく高いことを示す。
論文 参考訳(メタデータ) (2020-06-25T08:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。