論文の概要: From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.22028v1
- Date: Tue, 29 Jul 2025 17:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.772463
- Title: From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning
- Title(参考訳): 観察から経験へ:強化学習によるナビゲーション基礎モデルのスケーリング
- Authors: Honglin He, Yukai Ma, Wayne Wu, Bolei Zhou,
- Abstract要約: 本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
- 参考スコア(独自算出の注目度): 59.88543114325153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Navigation foundation models trained on massive webscale data enable agents to generalize across diverse environments and embodiments. However, these models trained solely on offline data, often lack the capacity to reason about the consequences of their actions or adapt through counterfactual understanding. They thus face significant limitations in the real-world urban navigation where interactive and safe behaviors, such as avoiding obstacles and moving pedestrians, are critical. To tackle these challenges, we introduce the Seeing-to-Experiencing framework to scale the capability of navigation foundation models with reinforcement learning. S2E combines the strengths of pre-training on videos and post-training through RL. It maintains the generalizability acquired from large-scale real-world videos while enhancing its interactivity through RL in simulation environments. Specifically, we introduce two innovations: an Anchor-Guided Distribution Matching strategy, which stabilizes learning and models diverse motion patterns through anchor-based supervision; and a Residual-Attention Module, which obtains reactive behaviors from simulation environments without erasing the model's pretrained knowledge. Moreover, we establish a comprehensive end-to-end evaluation benchmark, NavBench-GS, built on photorealistic 3DGS reconstructions of real-world scenes that incorporate physical interactions. It can systematically assess the generalizability and safety of navigation foundation models. Extensive experiments show that S2E mitigates the diminishing returns often seen when scaling with offline data alone. We perform a thorough analysis of the benefits of Reinforcement Learning compared to Supervised Fine-Tuning in the context of post-training for robot learning. Our findings emphasize the crucial role of integrating interactive online experiences to effectively scale foundation models in Robotics.
- Abstract(参考訳): 大規模なWebスケールデータに基づいてトレーニングされたナビゲーションファウンデーションモデルにより、エージェントはさまざまな環境や実施環境にまたがって一般化することができる。
しかしながら、これらのモデルはオフラインデータのみに基づいてトレーニングされ、アクションの結果を推論したり、反事実的理解を通じて適応する能力に欠けることが多い。
そのため、障害物回避や歩行者の移動など、対話的で安全な行動が重要となる現実の都市ナビゲーションにおいて、大きな制限に直面している。
これらの課題に対処するために,強化学習によるナビゲーション基礎モデルの能力向上を目的としたSeeing-to-Experiencingフレームワークを導入する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
シミュレーション環境では、RLによる対話性を高めながら、大規模な現実世界のビデオから得られる一般化性を維持している。
具体的には,アンカーベース監視による多様な動作パターンの学習とモデル化を安定化するアンカーガイド型分散マッチング戦略と,モデルの事前学習知識を消去することなくシミュレーション環境からリアクティブな動作を得るResidual-Attention Moduleという2つのイノベーションを紹介する。
さらに,物理的相互作用を組み込んだ実世界の3DGS再構成に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
ナビゲーション基礎モデルの一般化性と安全性を体系的に評価することができる。
大規模な実験により、S2Eはオフラインデータだけでのスケーリングでよく見られるリターンの減少を緩和している。
本研究では,ロボット学習のポストトレーニングにおける強化学習のメリットを,教師付きファインチューニングと比較し,徹底的に分析する。
本研究は,ロボティクスの基盤モデルを効果的にスケールするために,インタラクティブなオンライン体験を統合することの重要性を強調した。
関連論文リスト
- Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach [55.76249793590689]
Video-Enhanced Offline RL (VeoRL) は、インタラクティブな世界モデルを構築するためのモデルベースの手法である。
VeoRLは、ロボット操作、自律運転、オープンワールドビデオゲームにおける視覚制御タスクにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-10T00:54:12Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Sonar-based Deep Learning in Underwater Robotics: Overview, Robustness and Challenges [0.46873264197900916]
水中でのソナーの使用は、限られた訓練データと固有のノイズが特徴であり、頑丈さをモデル化する上での課題となっている。
本稿では,分類,物体検出,セグメンテーション,SLAMなどのソナーベース認知タスクモデルについて検討する。
ソナーベースの最先端データセット、シミュレータ、ニューラルネットワーク検証、アウト・オブ・ディストリビューション、敵攻撃などの堅牢性メソッドを体系化する。
論文 参考訳(メタデータ) (2024-12-16T15:03:08Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。