Fugu-MT 論文翻訳(概要): PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav

論文の概要: PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav

arxiv url: http://arxiv.org/abs/2301.07302v2
Date: Sun, 26 Mar 2023 14:49:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-29 00:54:13.501781
Title: PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav
Title（参考訳）: PIRLNav: ObjectNavのイミュレーションとRLファインタニングによる事前トレーニング
Authors: Ram Ramrakhya, Dhruv Batra, Erik Wijmans, Abhishek Das
Abstract要約: 仮想ロボットにオブジェクトへのナビゲートを依頼するObjectGoal Navigationについて検討する。 PIRLNavは,ヒトのデモンストレーションとRLファインタニングを併用した,BCのための2段階の学習手法である。ヒトのデモンストレーションにおける BC$rightarrow$RL は SP と FE の軌道上で BC$rightarrow$RL より優れていた。
参考スコア（独自算出の注目度）: 41.820289202253235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study ObjectGoal Navigation -- where a virtual robot situated in a new environment is asked to navigate to an object. Prior work has shown that imitation learning (IL) using behavior cloning (BC) on a dataset of human demonstrations achieves promising results. However, this has limitations -- 1) BC policies generalize poorly to new states, since the training mimics actions not their consequences, and 2) collecting demonstrations is expensive. On the other hand, reinforcement learning (RL) is trivially scalable, but requires careful reward engineering to achieve desirable behavior. We present PIRLNav, a two-stage learning scheme for BC pretraining on human demonstrations followed by RL-finetuning. This leads to a policy that achieves a success rate of $65.0\%$ on ObjectNav ($+5.0\%$ absolute over previous state-of-the-art). Using this BC$\rightarrow$RL training recipe, we present a rigorous empirical analysis of design choices. First, we investigate whether human demonstrations can be replaced with `free' (automatically generated) sources of demonstrations, e.g. shortest paths (SP) or task-agnostic frontier exploration (FE) trajectories. We find that BC$\rightarrow$RL on human demonstrations outperforms BC$\rightarrow$RL on SP and FE trajectories, even when controlled for same BC-pretraining success on train, and even on a subset of val episodes where BC-pretraining success favors the SP or FE policies. Next, we study how RL-finetuning performance scales with the size of the BC pretraining dataset. We find that as we increase the size of BC-pretraining dataset and get to high BC accuracies, improvements from RL-finetuning are smaller, and that $90\%$ of the performance of our best BC$\rightarrow$RL policy can be achieved with less than half the number of BC demonstrations. Finally, we analyze failure modes of our ObjectNav policies, and present guidelines for further improving them.
Abstract（参考訳）: objectgoal navigation -- 新たな環境に位置する仮想ロボットにオブジェクトへのナビゲートを依頼する。以前の研究では、人間のデモのデータセット上でbc(behavior clone)を使用した模倣学習(il)が有望な結果をもたらすことが示されている。しかし、これには制限がある。 1)BCの政策は、訓練が結果ではなく行動を模倣しているため、新しい州に悪影響を及ぼす。 2) デモの収集は費用がかかる。一方、強化学習(rl)は微妙にスケーラブルであるが、望ましい行動を達成するには注意深い報酬工学が必要である。 PIRLNavは,人体実験とRLファインタニングを併用した,BCのための2段階学習方式である。これは、objectnavで65.0\%$(以前の最先端よりも+5.0\%$ absolute)の成功率を達成するポリシーにつながる。このbc$\rightarrow$rlトレーニングレシピを用いて,設計選択の厳密な経験的分析を行う。まず,人間によるデモンストレーションを,例えば,最短経路 (SP) やタスク非依存フロンティア探索 (FE) といった,デモンストレーションの「自由」(自動生成)ソースに置き換えることができるかを検討する。 BC$\rightarrow$RL on human demonstrations, BC$\rightarrow$RL on SP and FE trajectories, even when controlled for same BC-pretraining success on Train, and even on a subset val episodes where BC-pretraining success favors SP or FE policy。次に,bcプリトレーニングデータセットのサイズに応じて,rl微調整性能がどのようにスケールするかについて検討する。 BC-pretraining データセットのサイズを拡大し、BC の精度を高めるにつれて、RL-finetuning の改善は小さくなり、BC$\rightarrow$RL ポリシーのパフォーマンスの 90 % は、BC のデモの半数以下で達成できることがわかった。最後に、objectnavポリシーの障害モードを分析し、さらに改善するためのガイドラインを提示します。

関連論文リスト

AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文参考訳（メタデータ） (2025-05-22T08:50:47Z)
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [34.806610134389366]
NoisyRolloutは、RLトレーニング中にきれいな画像と歪んだ画像の両方の軌跡を混合する、シンプルだが効果的なデータ拡張手法である。 NoisyRolloutは、視覚知覚と結果の推論パターンに目的の多様性を注入することによって、視覚指向の帰納的バイアスを通じて、より良い政策探索を促進する。 NoisyRolloutは5ドルのドメイン外推論と知覚ベンチマークで、オープンソースのRLチューニングモデルの最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-17T16:10:13Z)
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。 OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文参考訳（メタデータ） (2025-02-10T18:57:29Z)
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文参考訳（メタデータ） (2024-10-23T17:58:45Z)
From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
ビヘイビアクローン(BC)は印象的な機能を実現しているが、アセンブリのようなオブジェクトの正確な整合と挿入を必要とするタスクに対する信頼性の高いポリシーを学ぶには、模倣が不十分である。 ResiP(Residual for Precise Manipulation)は、RLで訓練された完全閉ループ残差ポリシで、凍結したチャンクされたBCモデルを拡張することで、これらの課題をサイドステップで進める。高精度な操作タスクの評価は、BC法と直接RL微調整によるResiPの強い性能を示す。
論文参考訳（メタデータ） (2024-07-23T17:44:54Z)
Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文参考訳（メタデータ） (2023-09-18T19:49:22Z)
Avoidance Navigation Based on Offline Pre-Training Reinforcement Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。 DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文参考訳（メタデータ） (2023-08-03T06:19:46Z)
DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。 DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文参考訳（メタデータ） (2023-07-30T14:50:31Z)
Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic [42.57662196581823]
高品質な$Q$値関数の学習は、多くの現代のオフポリシーディープ強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。一般的な視点から考えると、RLトレーニングプロセスの後半段階では、$Q$-valueが過小評価されることが多い。本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
論文参考訳（メタデータ） (2023-06-05T13:38:14Z)
Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文参考訳（メタデータ） (2023-05-11T22:50:41Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文参考訳（メタデータ） (2021-06-08T07:37:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。