論文の概要: PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav
- arxiv url: http://arxiv.org/abs/2301.07302v1
- Date: Wed, 18 Jan 2023 04:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:44:30.290699
- Title: PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav
- Title(参考訳): PIRLNav: ObjectNavのイミュレーションとRLファインタニングによる事前トレーニング
- Authors: Ram Ramrakhya, Dhruv Batra, Erik Wijmans, Abhishek Das
- Abstract要約: ObjectGoal Navigation - 仮想ロボットにオブジェクトへのナビゲートを依頼する。
本稿では,人間の実演とRLファインタニングによるIL事前訓練のための2段階学習手法を提案する。
実演における IL$rightarrow$RL はSP と FE の軌道上で IL$rightarrow$RL より優れていた。
- 参考スコア(独自算出の注目度): 41.820289202253235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study ObjectGoal Navigation - where a virtual robot situated in a new
environment is asked to navigate to an object. Prior work has shown that
imitation learning (IL) on a dataset of human demonstrations achieves promising
results. However, this has limitations $-$ 1) IL policies generalize poorly to
new states, since the training mimics actions not their consequences, and 2)
collecting demonstrations is expensive. On the other hand, reinforcement
learning (RL) is trivially scalable, but requires careful reward engineering to
achieve desirable behavior. We present a two-stage learning scheme for IL
pretraining on human demonstrations followed by RL-finetuning. This leads to a
PIRLNav policy that advances the state-of-the-art on ObjectNav from $60.0\%$
success rate to $65.0\%$ ($+5.0\%$ absolute). Using this IL$\rightarrow$RL
training recipe, we present a rigorous empirical analysis of design choices.
First, we investigate whether human demonstrations can be replaced with `free'
(automatically generated) sources of demonstrations, e.g. shortest paths (SP)
or task-agnostic frontier exploration (FE) trajectories. We find that
IL$\rightarrow$RL on human demonstrations outperforms IL$\rightarrow$RL on SP
and FE trajectories, even when controlled for the same IL-pretraining success
on TRAIN, and even on a subset of VAL episodes where IL-pretraining success
favors the SP or FE policies. Next, we study how RL-finetuning performance
scales with the size of the IL pretraining dataset. We find that as we increase
the size of the IL-pretraining dataset and get to high IL accuracies, the
improvements from RL-finetuning are smaller, and that $90\%$ of the performance
of our best IL$\rightarrow$RL policy can be achieved with less than half the
number of IL demonstrations. Finally, we analyze failure modes of our ObjectNav
policies, and present guidelines for further improving them.
- Abstract(参考訳): 我々は,新しい環境に位置する仮想ロボットに物体への移動を依頼する,オブジェクトのナビゲーションについて研究する。
先行研究では、人間のデモンストレーションのデータセット上の模倣学習(il)が有望な結果をもたらすことが示されている。
しかし、この制限は$-$である。
1)il政策は,訓練が行動を模倣せず,その結果を模倣しているため,新しい州に悪影響を与える。
2) デモの収集は費用がかかる。
一方、強化学習(rl)は微妙にスケーラブルであるが、望ましい行動を達成するには注意深い報酬工学が必要である。
本稿では,人間の実演におけるil前訓練とrl-finetuningの2段階学習方式を提案する。
これによりPIRLNavポリシーが実現され、ObjectNavの最先端技術は60.0%$成功率から65.0%$$+5.0\%$絶対値へと進歩する。
このil$\rightarrow$rlトレーニングレシピを用いて,設計選択の厳密な経験的分析を行う。
まず,人間によるデモンストレーションを,例えば,最短経路 (SP) やタスク非依存フロンティア探索 (FE) といった,デモンストレーションの「自由」(自動生成)ソースに置き換えることができるかを検討する。
IL$\rightarrow$RLはSPとFEの軌道上でIL$\rightarrow$RLより優れており、TRAIN上で同じIL-pretraining成功のために制御されている場合や、IL-pretraining成功がSPまたはFEポリシーに好まれるVALエピソードのサブセットであっても、IL$\rightarrow$RLより優れている。
次に、RLファインタニング性能がIL事前学習データセットのサイズとどのようにスケールするかを検討する。
IL事前トレーニングデータセットのサイズを拡大し、高いIL精度に達すると、RLファインタニングによる改善は小さくなり、最高のIL$\rightarrow$RLポリシーの性能は、ILデモの半分未満で達成できることがわかった。
最後に、objectnavポリシーの障害モードを分析し、さらに改善するためのガイドラインを提示します。
関連論文リスト
- Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。
DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。
これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文 参考訳(メタデータ) (2023-07-30T14:50:31Z) - Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文 参考訳(メタデータ) (2023-06-21T07:43:23Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - ConserWeightive Behavioral Cloning for Reliable Offline Reinforcement
Learning [27.322942155582687]
オフライン強化学習(RL)の目標は、静的なログ付きデータセットからほぼ最適なポリシを学ぶことで、高価なオンラインインタラクションをサイドステッピングすることにある。
行動クローン(BC)は、教師あり学習を通じてオフラインの軌跡を模倣することで、オフラインRLに対する簡単なソリューションを提供する。
オフラインRLにおける条件付きBCの性能を向上させるために,ConserWeightive Behavioral Cloning (CWBC)を提案する。
論文 参考訳(メタデータ) (2022-10-11T05:37:22Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning from demonstrations with SACR2: Soft Actor-Critic with Reward
Relabeling [2.1485350418225244]
オフポリシーアルゴリズムはサンプリング効率が良く、リプレイバッファに格納された任意のオフポリシーデータの恩恵を受けることができる。
専門家によるデモンストレーションは、そのようなデータのための一般的な情報源である。
本稿では,実演と成功エピソードに対する報酬ボーナスに基づく新たな手法を提案する。
論文 参考訳(メタデータ) (2021-10-27T14:30:29Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Principled Exploration via Optimistic Bootstrapping and Backward
Induction [84.78836146128238]
最適ブートストラップ・バックワード誘導(OB2I)による深層強化学習(DRL)の原理的探索法を提案する。
OB2IはDRLの非パラメトリックブートストラップを介して汎用UCB結合を構築する。
提案する UCB-bonus と LSVI-UCB の理論的接続を線形に構築する。
論文 参考訳(メタデータ) (2021-05-13T01:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。