論文の概要: APReL: A Library for Active Preference-based Reward Learning Algorithms
- arxiv url: http://arxiv.org/abs/2108.07259v1
- Date: Mon, 16 Aug 2021 17:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:20:18.357109
- Title: APReL: A Library for Active Preference-based Reward Learning Algorithms
- Title(参考訳): APReL: アクティブな推論に基づく逆学習アルゴリズムのためのライブラリ
- Authors: Erdem B\i y\i k, Aditi Talati, Dorsa Sadigh
- Abstract要約: APReLは、アクティブな嗜好に基づく報酬学習アルゴリズムのためのライブラリである。
本稿では、アクティブな嗜好に基づく報酬学習アルゴリズムのためのライブラリAPReLを提案する。
- 参考スコア(独自算出の注目度): 5.331296724231437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward learning is a fundamental problem in robotics to have robots that
operate in alignment with what their human user wants. Many preference-based
learning algorithms and active querying techniques have been proposed as a
solution to this problem. In this paper, we present APReL, a library for active
preference-based reward learning algorithms, which enable researchers and
practitioners to experiment with the existing techniques and easily develop
their own algorithms for various modules of the problem.
- Abstract(参考訳): 報酬学習(reward learning)はロボットの基本的な問題であり、ロボットは人間の欲望に合わせて行動する。
多くの選好ベースの学習アルゴリズムとアクティブクエリ技術がこの問題の解決策として提案されている。
本稿では,研究者や実践者が既存の手法を試し,問題の様々なモジュールに対して独自のアルゴリズムを容易に開発できる,アクティブな選好に基づく報酬学習アルゴリズムライブラリaprelを提案する。
関連論文リスト
- Batch Active Learning of Reward Functions from Human Preferences [33.39413552270375]
嗜好に基づく学習は、ユーザが好みの質問をすることで、信頼できるラベル付けを可能にする。
アクティブクエリ手法は、より情報性の高いデータを生成するために、好みに基づく学習で一般的に使用される。
我々は,データサンプルを極力少なくして,報酬関数の効率的な学習を可能にする,新しいアルゴリズムのセットを開発した。
論文 参考訳(メタデータ) (2024-02-24T08:07:48Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Reinforcement Learning Algorithms: An Overview and Classification [0.0]
本研究では,3種類の環境タイプを特定し,それらの環境タイプに応じて強化学習アルゴリズムを分類する。
各アルゴリズムの概要は、アルゴリズムの基礎についての洞察を与え、アルゴリズム間の類似点と相違点をレビューする。
論文 参考訳(メタデータ) (2022-09-29T16:58:42Z) - Tree-Based Adaptive Model Learning [62.997667081978825]
我々はKearns-Vazirani学習アルゴリズムを拡張し、時間とともに変化するシステムを扱う。
本稿では,学習前の動作を再利用し,更新し,LearnerLibライブラリに実装し,大規模な実例で評価する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T21:24:22Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - The CLRS Algorithmic Reasoning Benchmark [28.789225199559834]
アルゴリズムの学習表現は機械学習の新たな領域であり、ニューラルネットワークから古典的なアルゴリズムで概念をブリッジしようとしている。
本稿では,従来のアルゴリズムを包括するCLRS Algorithmic Reasoning Benchmarkを提案する。
我々のベンチマークは、ソート、探索、動的プログラミング、グラフアルゴリズム、文字列アルゴリズム、幾何アルゴリズムなど、様々なアルゴリズムの推論手順にまたがっている。
論文 参考訳(メタデータ) (2022-05-31T09:56:44Z) - Meta Navigator: Search for a Good Adaptation Policy for Few-shot
Learning [113.05118113697111]
少ないショット学習は、ラベル付きデータしか持たない新しいタスクに、以前のタスクから学んだ知識を適応させることを目的としている。
少数ショット学習に関する研究文献は、大きな多様性を示し、異なるアルゴリズムは、しばしば異なる少数ショット学習シナリオで優れている。
本稿では,メタナビゲータ(Meta Navigator)について紹介する。
論文 参考訳(メタデータ) (2021-09-13T07:20:01Z) - Unsupervised Behaviour Discovery with Quality-Diversity Optimisation [1.0152838128195467]
品質多様性アルゴリズム(Quality-Diversity algorithm)は、与えられた問題に対する多様な高性能なソリューションの集合を見つけるために設計された進化的アルゴリズムのクラスを指す。
ロボット工学において、そのようなアルゴリズムはロボットの動作のほとんどをカバーするコントローラーの集合を生成するのに使用できる。
本稿では,自律型ロボットの能力を実現するアルゴリズムについて紹介する。
論文 参考訳(メタデータ) (2021-06-10T10:40:18Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。