論文の概要: PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav
- arxiv url: http://arxiv.org/abs/2301.07302v2
- Date: Sun, 26 Mar 2023 14:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 00:54:13.501781
- Title: PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav
- Title(参考訳): PIRLNav: ObjectNavのイミュレーションとRLファインタニングによる事前トレーニング
- Authors: Ram Ramrakhya, Dhruv Batra, Erik Wijmans, Abhishek Das
- Abstract要約: 仮想ロボットにオブジェクトへのナビゲートを依頼するObjectGoal Navigationについて検討する。
PIRLNavは,ヒトのデモンストレーションとRLファインタニングを併用した,BCのための2段階の学習手法である。
ヒトのデモンストレーションにおける BC$rightarrow$RL は SP と FE の軌道上で BC$rightarrow$RL より優れていた。
- 参考スコア(独自算出の注目度): 41.820289202253235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study ObjectGoal Navigation -- where a virtual robot situated in a new
environment is asked to navigate to an object. Prior work has shown that
imitation learning (IL) using behavior cloning (BC) on a dataset of human
demonstrations achieves promising results. However, this has limitations -- 1)
BC policies generalize poorly to new states, since the training mimics actions
not their consequences, and 2) collecting demonstrations is expensive. On the
other hand, reinforcement learning (RL) is trivially scalable, but requires
careful reward engineering to achieve desirable behavior. We present PIRLNav, a
two-stage learning scheme for BC pretraining on human demonstrations followed
by RL-finetuning. This leads to a policy that achieves a success rate of
$65.0\%$ on ObjectNav ($+5.0\%$ absolute over previous state-of-the-art). Using
this BC$\rightarrow$RL training recipe, we present a rigorous empirical
analysis of design choices. First, we investigate whether human demonstrations
can be replaced with `free' (automatically generated) sources of
demonstrations, e.g. shortest paths (SP) or task-agnostic frontier exploration
(FE) trajectories. We find that BC$\rightarrow$RL on human demonstrations
outperforms BC$\rightarrow$RL on SP and FE trajectories, even when controlled
for same BC-pretraining success on train, and even on a subset of val episodes
where BC-pretraining success favors the SP or FE policies. Next, we study how
RL-finetuning performance scales with the size of the BC pretraining dataset.
We find that as we increase the size of BC-pretraining dataset and get to high
BC accuracies, improvements from RL-finetuning are smaller, and that $90\%$ of
the performance of our best BC$\rightarrow$RL policy can be achieved with less
than half the number of BC demonstrations. Finally, we analyze failure modes of
our ObjectNav policies, and present guidelines for further improving them.
- Abstract(参考訳): objectgoal navigation -- 新たな環境に位置する仮想ロボットにオブジェクトへのナビゲートを依頼する。以前の研究では、人間のデモのデータセット上でbc(behavior clone)を使用した模倣学習(il)が有望な結果をもたらすことが示されている。しかし、これには制限がある。
1)BCの政策は、訓練が結果ではなく行動を模倣しているため、新しい州に悪影響を及ぼす。
2) デモの収集は費用がかかる。
一方、強化学習(rl)は微妙にスケーラブルであるが、望ましい行動を達成するには注意深い報酬工学が必要である。
PIRLNavは,人体実験とRLファインタニングを併用した,BCのための2段階学習方式である。
これは、objectnavで65.0\%$(以前の最先端よりも+5.0\%$ absolute)の成功率を達成するポリシーにつながる。
このbc$\rightarrow$rlトレーニングレシピを用いて,設計選択の厳密な経験的分析を行う。
まず,人間によるデモンストレーションを,例えば,最短経路 (SP) やタスク非依存フロンティア探索 (FE) といった,デモンストレーションの「自由」(自動生成)ソースに置き換えることができるかを検討する。
BC$\rightarrow$RL on human demonstrations, BC$\rightarrow$RL on SP and FE trajectories, even when controlled for same BC-pretraining success on Train, and even on a subset val episodes where BC-pretraining success favors SP or FE policy。
次に,bcプリトレーニングデータセットのサイズに応じて,rl微調整性能がどのようにスケールするかについて検討する。
BC-pretraining データセットのサイズを拡大し、BC の精度を高めるにつれて、RL-finetuning の改善は小さくなり、BC$\rightarrow$RL ポリシーのパフォーマンスの 90 % は、BC のデモの半数以下で達成できることがわかった。
最後に、objectnavポリシーの障害モードを分析し、さらに改善するためのガイドラインを提示します。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
ビヘイビアクローン(BC)は印象的な機能を実現しているが、アセンブリのようなオブジェクトの正確な整合と挿入を必要とするタスクに対する信頼性の高いポリシーを学ぶには、模倣が不十分である。
ResiP(Residual for Precise Manipulation)は、RLで訓練された完全閉ループ残差ポリシで、凍結したチャンクされたBCモデルを拡張することで、これらの課題をサイドステップで進める。
高精度な操作タスクの評価は、BC法と直接RL微調整によるResiPの強い性能を示す。
論文 参考訳(メタデータ) (2024-07-23T17:44:54Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。
DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。
これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文 参考訳(メタデータ) (2023-07-30T14:50:31Z) - Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic [42.57662196581823]
高品質な$Q$値関数の学習は、多くの現代のオフポリシーディープ強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。
一般的な視点から考えると、RLトレーニングプロセスの後半段階では、$Q$-valueが過小評価されることが多い。
本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
論文 参考訳(メタデータ) (2023-06-05T13:38:14Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。