論文の概要: A New Framework for Query Efficient Active Imitation Learning
- arxiv url: http://arxiv.org/abs/1912.13037v1
- Date: Mon, 30 Dec 2019 18:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 01:58:22.504295
- Title: A New Framework for Query Efficient Active Imitation Learning
- Title(参考訳): クエリ効率の良い能動模倣学習のための新しいフレームワーク
- Authors: Daniel Hsu
- Abstract要約: 彼の好みと目的に基づいて、報酬と安全でない状態を知っている人間の専門家がいますが、人間の専門家に問い合わせるのは高価です。
本稿では,ユーザの報酬関数のモデルと効率的なクエリを積極的かつインタラクティブに学習する,模倣学習(IL)アルゴリズムを提案する。
提案手法は、状態ベース2次元ナビゲーションタスク、ロボット制御タスク、画像ベースビデオゲームに基づいて、シミュレーションされた人間を用いて評価する。
- 参考スコア(独自算出の注目度): 5.167794607251493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We seek to align agent policy with human expert behavior in a reinforcement
learning (RL) setting, without any prior knowledge about dynamics, reward
function, and unsafe states. There is a human expert knowing the rewards and
unsafe states based on his preference and objective, but querying that human
expert is expensive. To address this challenge, we propose a new framework for
imitation learning (IL) algorithm that actively and interactively learns a
model of the user's reward function with efficient queries. We build an
adversarial generative model of states and a successor feature (SR) model
trained over transition experience collected by learning policy. Our method
uses these models to select state-action pairs, asking the user to comment on
the optimality or safety, and trains a adversarial neural network to predict
the rewards. Different from previous papers, which are almost all based on
uncertainty sampling, the key idea is to actively and efficiently select
state-action pairs from both on-policy and off-policy experience, by
discriminating the queried (expert) and unqueried (generated) data and
maximizing the efficiency of value function learning. We call this method
adversarial reward query with successor representation. We evaluate the
proposed method with simulated human on a state-based 2D navigation task,
robotic control tasks and the image-based video games, which have
high-dimensional observation and complex state dynamics. The results show that
the proposed method significantly outperforms uncertainty-based methods on
learning reward models, achieving better query efficiency, where the
adversarial discriminator can make the agent learn human behavior more
efficiently and the SR can select states which have stronger impact on value
function. Moreover, the proposed method can also learn to avoid unsafe states
when training the reward model.
- Abstract(参考訳): 我々は,エージェント政策と人間専門家の行動とを,力学,報酬関数,安全でない状態に関する事前知識のない強化学習(RL)環境で整合させることを模索する。
彼の好みと目的に基づいて報酬と安全でない状態を知っている人間の専門家がいますが、人間の専門家は高価です。
この課題に対処するために,ユーザの報酬関数のモデルと効率的なクエリをアクティブかつインタラクティブに学習する,模倣学習(IL)アルゴリズムの新しいフレームワークを提案する。
学習方針によって収集された遷移経験に基づいて学習した状態の逆生成モデルと後継特徴(SR)モデルを構築した。
提案手法では,これらのモデルを用いて状態と動作のペアを選択し,ユーザに最適性や安全性についてコメントを求め,敵のニューラルネットワークを訓練して報酬を予測する。
不確実性サンプリングに基づく以前の論文と異なり、クエリ(専門家)と未問い合わせ(生成)データを区別し、価値関数学習の効率を最大化することにより、オン・ポリシーとオフ・ポリシーの両方の体験から、能動的かつ効率的にステートアクションペアを選択することが鍵となる。
我々は,この手法を後継表現を用いた逆報酬クエリと呼ぶ。
本研究では,高度観測と複雑な状態ダイナミクスを有する2次元ナビゲーションタスク,ロボット制御タスク,画像ベースのビデオゲームにおいて,シミュレート人間を用いて提案手法を評価する。
その結果,提案手法は報酬モデルの学習において不確実性に基づく手法を著しく上回り,クエリ効率が向上し,相手の判別者がエージェントの行動をより効率的に学習し,srが価値関数に強い影響を与える状態を選択できることがわかった。
さらに,提案手法は報酬モデルのトレーニング時に安全でない状態を避けることも可能である。
関連論文リスト
- Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Automatic Evaluation of Excavator Operators using Learned Reward
Functions [5.372817906484557]
本稿では,掘削作業者の自動評価のための新しい手法を提案する。
掘削機の内部力学と安全基準を各ステップで考慮し,性能評価を行う。
これらの外部報酬予測モデルを用いて学習したポリシーについて,より安全な解が得られた。
論文 参考訳(メタデータ) (2022-11-15T06:58:00Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - REMAX: Relational Representation for Multi-Agent Exploration [13.363887960136102]
ゲームの初期状態を生成する学習ベースの探索戦略を提案する。
本手法は,既存の探査手法よりも,MARLモデルの訓練と性能を向上させることを実証する。
論文 参考訳(メタデータ) (2020-08-12T10:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。