論文の概要: PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav
- arxiv url: http://arxiv.org/abs/2301.07302v1
- Date: Wed, 18 Jan 2023 04:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:44:30.290699
- Title: PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav
- Title(参考訳): PIRLNav: ObjectNavのイミュレーションとRLファインタニングによる事前トレーニング
- Authors: Ram Ramrakhya, Dhruv Batra, Erik Wijmans, Abhishek Das
- Abstract要約: ObjectGoal Navigation - 仮想ロボットにオブジェクトへのナビゲートを依頼する。
本稿では,人間の実演とRLファインタニングによるIL事前訓練のための2段階学習手法を提案する。
実演における IL$rightarrow$RL はSP と FE の軌道上で IL$rightarrow$RL より優れていた。
- 参考スコア(独自算出の注目度): 41.820289202253235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study ObjectGoal Navigation - where a virtual robot situated in a new
environment is asked to navigate to an object. Prior work has shown that
imitation learning (IL) on a dataset of human demonstrations achieves promising
results. However, this has limitations $-$ 1) IL policies generalize poorly to
new states, since the training mimics actions not their consequences, and 2)
collecting demonstrations is expensive. On the other hand, reinforcement
learning (RL) is trivially scalable, but requires careful reward engineering to
achieve desirable behavior. We present a two-stage learning scheme for IL
pretraining on human demonstrations followed by RL-finetuning. This leads to a
PIRLNav policy that advances the state-of-the-art on ObjectNav from $60.0\%$
success rate to $65.0\%$ ($+5.0\%$ absolute). Using this IL$\rightarrow$RL
training recipe, we present a rigorous empirical analysis of design choices.
First, we investigate whether human demonstrations can be replaced with `free'
(automatically generated) sources of demonstrations, e.g. shortest paths (SP)
or task-agnostic frontier exploration (FE) trajectories. We find that
IL$\rightarrow$RL on human demonstrations outperforms IL$\rightarrow$RL on SP
and FE trajectories, even when controlled for the same IL-pretraining success
on TRAIN, and even on a subset of VAL episodes where IL-pretraining success
favors the SP or FE policies. Next, we study how RL-finetuning performance
scales with the size of the IL pretraining dataset. We find that as we increase
the size of the IL-pretraining dataset and get to high IL accuracies, the
improvements from RL-finetuning are smaller, and that $90\%$ of the performance
of our best IL$\rightarrow$RL policy can be achieved with less than half the
number of IL demonstrations. Finally, we analyze failure modes of our ObjectNav
policies, and present guidelines for further improving them.
- Abstract(参考訳): 我々は,新しい環境に位置する仮想ロボットに物体への移動を依頼する,オブジェクトのナビゲーションについて研究する。
先行研究では、人間のデモンストレーションのデータセット上の模倣学習(il)が有望な結果をもたらすことが示されている。
しかし、この制限は$-$である。
1)il政策は,訓練が行動を模倣せず,その結果を模倣しているため,新しい州に悪影響を与える。
2) デモの収集は費用がかかる。
一方、強化学習(rl)は微妙にスケーラブルであるが、望ましい行動を達成するには注意深い報酬工学が必要である。
本稿では,人間の実演におけるil前訓練とrl-finetuningの2段階学習方式を提案する。
これによりPIRLNavポリシーが実現され、ObjectNavの最先端技術は60.0%$成功率から65.0%$$+5.0\%$絶対値へと進歩する。
このil$\rightarrow$rlトレーニングレシピを用いて,設計選択の厳密な経験的分析を行う。
まず,人間によるデモンストレーションを,例えば,最短経路 (SP) やタスク非依存フロンティア探索 (FE) といった,デモンストレーションの「自由」(自動生成)ソースに置き換えることができるかを検討する。
IL$\rightarrow$RLはSPとFEの軌道上でIL$\rightarrow$RLより優れており、TRAIN上で同じIL-pretraining成功のために制御されている場合や、IL-pretraining成功がSPまたはFEポリシーに好まれるVALエピソードのサブセットであっても、IL$\rightarrow$RLより優れている。
次に、RLファインタニング性能がIL事前学習データセットのサイズとどのようにスケールするかを検討する。
IL事前トレーニングデータセットのサイズを拡大し、高いIL精度に達すると、RLファインタニングによる改善は小さくなり、最高のIL$\rightarrow$RLポリシーの性能は、ILデモの半分未満で達成できることがわかった。
最後に、objectnavポリシーの障害モードを分析し、さらに改善するためのガイドラインを提示します。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
ビヘイビアクローン(BC)は印象的な機能を実現しているが、アセンブリのようなオブジェクトの正確な整合と挿入を必要とするタスクに対する信頼性の高いポリシーを学ぶには、模倣が不十分である。
ResiP(Residual for Precise Manipulation)は、RLで訓練された完全閉ループ残差ポリシで、凍結したチャンクされたBCモデルを拡張することで、これらの課題をサイドステップで進める。
高精度な操作タスクの評価は、BC法と直接RL微調整によるResiPの強い性能を示す。
論文 参考訳(メタデータ) (2024-07-23T17:44:54Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。
DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。
これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文 参考訳(メタデータ) (2023-07-30T14:50:31Z) - Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic [42.57662196581823]
高品質な$Q$値関数の学習は、多くの現代のオフポリシーディープ強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。
一般的な視点から考えると、RLトレーニングプロセスの後半段階では、$Q$-valueが過小評価されることが多い。
本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
論文 参考訳(メタデータ) (2023-06-05T13:38:14Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。