論文の概要: Interactive Imitation Learning in State-Space
- arxiv url: http://arxiv.org/abs/2008.00524v2
- Date: Tue, 17 Nov 2020 11:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 19:55:05.372447
- Title: Interactive Imitation Learning in State-Space
- Title(参考訳): 状態空間におけるインタラクティブな模倣学習
- Authors: Snehal Jauhri, Carlos Celemin, Jens Kober
- Abstract要約: 状態空間における人間のフィードバックを用いてエージェントの動作を訓練し改善する対話型学習手法を提案する。
「状態空間におけるImitative Policies in State-space(TIPS)」という題名のメソッドは、状態の変化の観点からエージェントにガイダンスを提供することを可能にします。」
- 参考スコア(独自算出の注目度): 5.672132510411464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning techniques enable programming the behavior of agents
through demonstrations rather than manual engineering. However, they are
limited by the quality of available demonstration data. Interactive Imitation
Learning techniques can improve the efficacy of learning since they involve
teachers providing feedback while the agent executes its task. In this work, we
propose a novel Interactive Learning technique that uses human feedback in
state-space to train and improve agent behavior (as opposed to alternative
methods that use feedback in action-space). Our method titled Teaching
Imitative Policies in State-space~(TIPS) enables providing guidance to the
agent in terms of `changing its state' which is often more intuitive for a
human demonstrator. Through continuous improvement via corrective feedback,
agents trained by non-expert demonstrators using TIPS outperformed the
demonstrator and conventional Imitation Learning agents.
- Abstract(参考訳): 模倣学習技術は、手動工学ではなくデモを通してエージェントの振る舞いをプログラミングすることができる。
しかし、これらは利用可能なデモデータの品質によって制限されている。
エージェントがタスクを実行する間、教師がフィードバックを提供するので、インタラクティブな模倣学習技術は学習の有効性を向上させることができる。
本研究では, エージェント行動の訓練と改善(行動空間におけるフィードバックを利用する代替手法とは対照的に)のために, 状態空間における人間フィードバックを用いた対話型学習手法を提案する。
状態空間における模倣政策の指導(tips)という題の手法は,人間にとってより直感的な「状態の交換」という観点でエージェントへの指導を可能にする。
修正フィードバックによる継続的な改善を通じて、TIPSを用いた非専門家のデモストレーターによって訓練されたエージェントは、デモレーターや従来の模倣学習エージェントよりも優れていた。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Continual Learning for Instruction Following from Realtime Feedback [23.078048024461264]
我々は,協調作業中のユーザからのフィードバックから,指示追従エージェントを継続的に訓練するためのアプローチを提案し,展開する。
対話中、人間のユーザは自然言語を使ってエージェントに指示し、指示に従ってエージェントを観察するときにリアルタイムのバイナリフィードバックを提供する。
我々は、ユーザのフィードバックを即時報酬に変換する、文脈的帯域幅学習アプローチを設計する。
我々は、何千もの人間とエージェントの相互作用を通じて評価し、時間とともに命令の実行精度が15.4%向上したことを示す。
論文 参考訳(メタデータ) (2022-12-19T18:39:43Z) - Imitation Learning from Observations under Transition Model Disparity [22.456737935789103]
専門家の観察(ILO)のデータセットを活用することでタスクを実行する学習は、専門家の報酬機能や専門家の行動にアクセスせずにスキルを学ぶための重要なパラダイムである。
スケーラブルなILOのための最近の手法は、専門家と学習者の状態遷移分布に適合する逆学習を利用する。
本稿では,学習者環境における仲介ポリシーを訓練し,学習者の代理的専門家として利用するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-25T05:36:54Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - SAFARI: Safe and Active Robot Imitation Learning with Imagination [16.967930721746676]
SAFARIは、新しい能動的学習制御アルゴリズムである。
これにより、エージェントは、これらのアウト・オブ・ディストリビューションの状況が満たされたときに、さらに人間のデモを要求することができる。
本手法により, エージェントが自律的に障害を迅速かつ安全に予測できることを示す。
論文 参考訳(メタデータ) (2020-11-18T23:43:59Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。