論文の概要: Learning to Localize Reference Trajectories in Image-Space for Visual Navigation
- arxiv url: http://arxiv.org/abs/2602.18803v1
- Date: Sat, 21 Feb 2026 11:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.614103
- Title: Learning to Localize Reference Trajectories in Image-Space for Visual Navigation
- Title(参考訳): ビジュアルナビゲーションのための画像空間における参照軌道の局所化学習
- Authors: Finn Lukas Busch, Matti Vahs, Quantao Yang, Jesús Gerardo Ortega Peimbert, Yixi Cai, Jana Tumova, Olov Andersson,
- Abstract要約: ロボットに依存しない画像空間ガイダンスを提供する視覚ナビゲーションモデルであるLoTISを提案する。
特定のロボットに関連付けられた動作を予測する代わりに、ロボットの現在のビューに現れるように、参照軌道のイメージ空間座標を予測する。
我々のモデルの予測は、多様な実施形態をまたいだゼロショットのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 11.2075405205209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LoTIS, a model for visual navigation that provides robot-agnostic image-space guidance by localizing a reference RGB trajectory in the robot's current view, without requiring camera calibration, poses, or robot-specific training. Instead of predicting actions tied to specific robots, we predict the image-space coordinates of the reference trajectory as they would appear in the robot's current view. This creates robot-agnostic visual guidance that easily integrates with local planning. Consequently, our model's predictions provide guidance zero-shot across diverse embodiments. By decoupling perception from action and learning to localize trajectory points rather than imitate behavioral priors, we enable a cross-trajectory training strategy for robustness to viewpoint and camera changes. We outperform state-of-the-art methods by 20-50 percentage points in success rate on conventional forward navigation, achieving 94-98% success rate across diverse sim and real environments. Furthermore, we achieve over 5x improvements on challenging tasks where baselines fail, such as backward traversal. The system is straightforward to use: we show how even a video from a phone camera directly enables different robots to navigate to any point on the trajectory. Videos, demo, and code are available at https://finnbusch.com/lotis.
- Abstract(参考訳): 本稿では,ロボットの現在の視界における参照RGB軌跡を,カメラのキャリブレーションやポーズ,ロボット特有の訓練を必要とせず,位置決めすることで,ロボットに依存しない画像空間ガイダンスを提供する視覚ナビゲーションのモデルであるLoTISを提案する。
特定のロボットに関連付けられた動作を予測する代わりに、ロボットの現在のビューに現れるように、参照軌道のイメージ空間座標を予測する。
これにより、ロボットに依存しない視覚的ガイダンスが作成され、ローカルプランニングと容易に統合される。
その結果、モデルの予測は、多様な実施形態をまたいだゼロショットのガイダンスを提供する。
行動から認識を分離し,行動の先行を模倣するよりも軌跡の局所化を学習することにより,視点やカメラの変化に対する堅牢性のための軌道横断訓練戦略を実現する。
我々は従来の前方航法における成功率を20~50ポイント上回り、様々なシミュレートや実環境において94~98%の成功率を達成した。
さらに,ベースラインが失敗するタスク,例えば後方移動などにおいて,5倍以上の改善を実現している。
このシステムは簡単で、スマートフォンのカメラから撮ったビデオでも、さまざまなロボットが軌道上のあらゆる地点へ移動できることを示す。
ビデオ、デモ、コードはhttps://finnbusch.com/lotis.comで公開されている。
関連論文リスト
- DreamToNav: Generalizable Navigation for Robots via Generative Video Planning [1.964570633684439]
私たちはDreamToNavを紹介します。DreamToNavは、生成ビデオモデルを使用して、直感的で人力によるループ制御を可能にする、新しい自律型ロボットフレームワークです。
室内ナビゲーション作業において,車輪付き移動ロボットと四足歩行ロボットの両方に対するアプローチを評価する。
DreamToNavは76.7%の成功率で、最終目標誤差は0.05-0.10m以内、軌道追跡誤差は0.15m以下である。
論文 参考訳(メタデータ) (2026-03-06T11:57:10Z) - YOPO-Nav: Visual Navigation using 3DGS Graphs from One-Pass Videos [5.7772802828964664]
本稿では,環境を3次元ガウススプラッティング(3DGS)モデルと相互接続した空間表現に符号化するYOPO-Navを提案する。
ナビゲーション中、このフレームワークはロボットの現在の視覚的観察をこの表現と整列させ、それを実証された軌道に戻す行動を予測する。
本稿では,Clearpath Jackal ロボットを用いた YOPO-Campus のトラジェクトリに対する最近の視覚ナビゲーション手法のベンチマークを行った。
論文 参考訳(メタデータ) (2025-12-10T18:32:38Z) - Sight Over Site: Perception-Aware Reinforcement Learning for Efficient Robotic Inspection [57.37596278863949]
本研究では,認識・認識の観点からの検査を再考する。
本稿では,目標視認性を主目的とするエンドツーエンド強化学習フレームワークを提案する。
提案手法は,既存の古典的および学習的ナビゲーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T15:14:02Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - See What the Robot Can't See: Learning Cooperative Perception for Visual
Navigation [11.943412856714154]
センサをトレーニングして、関連する視点情報を移動ロボットにエンコードし、伝達する。
我々は、全てのセンサーが目標への最短経路に沿って方向を予測できるようにするという課題を克服する。
その結果,センサとロボットの通信により,SPLの最大2.0倍の改善が達成された。
論文 参考訳(メタデータ) (2022-08-01T11:37:01Z) - Sparse Image based Navigation Architecture to Mitigate the need of
precise Localization in Mobile Robots [3.1556608426768324]
本稿では,スパース画像を用いた自律走行を追求する移動ロボットの正確な位置決めの必要性を軽減することに焦点を当てる。
提案手法は,教師なし学習のためのモデルアーキテクチャであるRoomNetで構成され,環境の粗い同定を行う。
後者はスパース画像マッチングを用いて、マッピングおよびトレーニング段階においてロボットが見たフレームをvis-a-visで達成したフレームの類似性を特徴付ける。
論文 参考訳(メタデータ) (2022-03-29T06:38:18Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。