論文の概要: Interactively Teaching an Inverse Reinforcement Learner with Limited
Feedback
- arxiv url: http://arxiv.org/abs/2309.09095v1
- Date: Sat, 16 Sep 2023 21:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 17:33:18.983109
- Title: Interactively Teaching an Inverse Reinforcement Learner with Limited
Feedback
- Title(参考訳): 限定フィードバックによる逆強化学習者の相互指導
- Authors: Rustam Zayanov, Francisco S. Melo, Manuel Lopes
- Abstract要約: 逐次意思決定課題における実演を通しての授業の課題について検討する。
本研究では,学習過程を限られたフィードバックで形式化し,この問題を解決するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.174296652683762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of teaching via demonstrations in sequential
decision-making tasks. In particular, we focus on the situation when the
teacher has no access to the learner's model and policy, and the feedback from
the learner is limited to trajectories that start from states selected by the
teacher. The necessity to select the starting states and infer the learner's
policy creates an opportunity for using the methods of inverse reinforcement
learning and active learning by the teacher. In this work, we formalize the
teaching process with limited feedback and propose an algorithm that solves
this teaching problem. The algorithm uses a modified version of the active
value-at-risk method to select the starting states, a modified maximum causal
entropy algorithm to infer the policy, and the difficulty score ratio method to
choose the teaching demonstrations. We test the algorithm in a synthetic car
driving environment and conclude that the proposed algorithm is an effective
solution when the learner's feedback is limited.
- Abstract(参考訳): 逐次意思決定課題における実演を通して指導の課題について検討する。
特に,教師が学習者のモデルや方針にアクセスできない状況に注目し,学習者のフィードバックは教師が選択した状態から始まる軌跡に限られる。
開始状態を選択して学習者の方針を推測する必要性は,教師による逆強化学習と能動的学習の手法を利用する機会を生み出す。
本研究では,教育過程を限定的なフィードバックで定式化し,この課題を解決するアルゴリズムを提案する。
アルゴリズムは、アクティブバリュー・アット・リスク法の修正版を使用して開始状態を選択するとともに、ポリシーを推測する修正された最大因果エントロピーアルゴリズムと、指導デモを選択する困難スコア比法を用いる。
提案手法を合成自動車運転環境でテストし,学習者のフィードバックが制限された場合,提案アルゴリズムが効果的な解となると結論づける。
関連論文リスト
- How to Choose a Reinforcement-Learning Algorithm [29.76033485145459]
我々は、強化学習アルゴリズムと行動配信ファミリーを選択するプロセスの合理化を図る。
既存のメソッドとその特性に関する構造化された概要と、どのメソッドを選択するかのガイドラインを提供する。
論文 参考訳(メタデータ) (2024-07-30T15:54:18Z) - Closed-loop Teaching via Demonstrations to Improve Policy Transparency [2.5515055736875016]
本稿では,教育文献の原則にインスパイアされた閉ループ教育フレームワークによるカリキュラムの強化について検討する。
ユーザスタディでは,提案したクローズドループ学習フレームワークにより,人間のテスト応答の後悔度をベースライン上で43%削減できることがわかった。
論文 参考訳(メタデータ) (2024-04-01T14:59:26Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Reusable Options through Gradient-based Meta Learning [24.59017394648942]
エンド・ツー・エンドでオプションの形で時間的抽象化を学ぶために、いくつかのディープラーニングアプローチが提案された。
学習オプションの問題は、勾配に基づくメタ学習の問題である。
提案手法は,既存の手法よりも学習を加速し,性能を向上する伝達可能なコンポーネントを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-12-22T14:19:35Z) - Curriculum Design for Teaching via Demonstrations: Theory and
Applications [29.71112499480574]
本研究では,学習者の収束を早めるために,実演よりもパーソナライズされたカリキュラムを設計する方法を検討する。
我々は,2つの一般的な学習モデルに対して,因果エントロピー逆強化学習(MaxEnt-IRL)とクロスエントロピー行動クローン(CrossEnt-BC)の統一的なカリキュラム戦略を提供する。
論文 参考訳(メタデータ) (2021-06-08T21:15:00Z) - Distribution Matching for Machine Teaching [64.39292542263286]
機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。
機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。
本稿では,分布マッチングに基づく機械教育戦略を提案する。
論文 参考訳(メタデータ) (2021-05-06T09:32:57Z) - Mastering Rate based Curriculum Learning [78.45222238426246]
学習の進行という概念には、学習者のサンプル効率の低下につながるいくつかの欠点があると主張する。
本稿では,習得率の概念に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-14T16:34:01Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Active Imitation Learning from Multiple Non-Deterministic Teachers:
Formulation, Challenges, and Algorithms [3.6702509833426613]
我々は,対話コストを最小に抑えつつ,複数の非決定論的教師を模倣する学習の問題を定式化する。
まず,教師の方針の連続表現を学習することで,そのような分布を効率的にモデル化し,推定する一般的な枠組みを提案する。
次に,学習者と教師のインタラクションコストを削減するための能動的学習アルゴリズムである,能動的パフォーマンスに基づく模倣学習(APIL)を開発した。
論文 参考訳(メタデータ) (2020-06-14T03:06:27Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。