論文の概要: 120 Minutes and a Laptop: Minimalist Image-goal Navigation via Unsupervised Exploration and Offline RL
- arxiv url: http://arxiv.org/abs/2603.26441v1
- Date: Fri, 27 Mar 2026 14:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.533205
- Title: 120 Minutes and a Laptop: Minimalist Image-goal Navigation via Unsupervised Exploration and Offline RL
- Title(参考訳): 120分とラップトップ: 教師なし探索とオフラインRLによるミニマリスト画像ゴールナビゲーション
- Authors: Xiaoming Liu, Borong Zhang, Qingbiao Li, Steven Morad,
- Abstract要約: データセットを収集し、ドメイン内のポリシーをトレーニングし、それを現実世界にデプロイできることを示します。
我々の手法であるMINavは、画像ゴールナビゲーションをオフラインの目標条件強化学習問題として定式化する。
- 参考スコア(独自算出の注目度): 11.190261147281186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevailing paradigm for image-goal visual navigation often assumes access to large-scale datasets, substantial pretraining, and significant computational resources. In this work, we challenge this assumption. We show that we can collect a dataset, train an in-domain policy, and deploy it to the real world (1) in less than 120 minutes, (2) on a consumer laptop, (3) without any human intervention. Our method, MINav, formulates image-goal navigation as an offline goal-conditioned reinforcement learning problem, combining unsupervised data collection with hindsight goal relabeling and offline policy learning. Experiments in simulation and the real world show that MINav improves exploration efficiency, outperforms zero-shot navigation baselines in target environments, and scales favorably with dataset size. These results suggest that effective real-world robotic learning can be achieved with high computational efficiency, lowering the barrier to rapid policy prototyping and deployment.
- Abstract(参考訳): 画像ゴールのビジュアルナビゲーションの一般的なパラダイムは、しばしば大規模なデータセット、実質的な事前訓練、重要な計算資源へのアクセスを前提としている。
この研究では、この仮定に挑戦する。
我々は、データセットを収集し、ドメイン内のポリシーをトレーニングし、120分未満で実際の世界に展開できることを示します。
我々の手法であるMINavは、教師なしデータ収集と後向きのゴール許容とオフラインポリシー学習を組み合わせた、オフラインのゴール条件強化学習問題としてイメージゴールナビゲーションを定式化する。
シミュレーションと実世界の実験により、MINavは探索効率を向上し、ターゲット環境におけるゼロショットナビゲーションベースラインを上回り、データセットサイズに好適にスケールすることが示された。
これらの結果は、効率的な実世界のロボット学習を高い計算効率で実現し、迅速なポリシープロトタイピングと展開の障壁を低くすることができることを示唆している。
関連論文リスト
- VLD: Visual Language Goal Distance for Reinforcement Learning Navigation [5.225089020389076]
本稿では,目標条件付きナビゲーションのフレームワークであるビジョン・ランゲージ・ディスタンス(VLD)学習を紹介する。
まず、インターネット規模のビデオデータに基づいて、自己教師付き距離目標予測器を訓練する。
この予測器は画像とテキストの両方の目標を一般化し、強化学習ポリシーによって最小化できる距離信号を提供する。
論文 参考訳(メタデータ) (2025-12-08T19:05:51Z) - Learning to Drive Anywhere with Model-Based Reannotation [49.80796496905606]
ロボットの視覚ナビゲーションポリシーを一般化するためのフレームワークを開発する。
クラウドソースの遠隔操作データや、ラベルなしのYouTubeビデオなど、受動的に収集されたデータを活用します。
このデータはLogoNavに蒸留される。LogoNavは、視覚的目標やGPSのウェイポイントに照準を合わせられた長い水平航法ポリシーだ。
論文 参考訳(メタデータ) (2025-05-08T18:43:39Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Offline Reinforcement Learning for Visual Navigation [66.88830049694457]
ReViNDは、ロボットナビゲーションのための最初のオフラインRLシステムで、これまで収集されたデータを利用して、現実世界でユーザーが指定した報酬関数を最適化する。
ReViNDは、このデータセットからのオフライントレーニングのみを使用して、遠方の目標にナビゲートできることを示し、ユーザ指定の報酬関数に基づいて、質的に異なる振る舞いを示す。
論文 参考訳(メタデータ) (2022-12-16T02:23:50Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。