論文の概要: Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision
- arxiv url: http://arxiv.org/abs/2512.10956v1
- Date: Thu, 11 Dec 2025 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.582902
- Title: Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision
- Title(参考訳): ステレオ・中層視による動的都市ナビゲーション
- Authors: Wentao Zhou, Xuweiyi Chen, Vignesh Rajagopal, Jeffrey Chen, Rohan Chandra, Zezhou Cheng,
- Abstract要約: 単眼視と中級視線を無視することは非効率であることを示す。
ステレオ入力と深度推定や高密度画素追跡などの明快な中間レベルビジョンでNFMを増強するStereoWalkerを提案する。
中間レベルのビジョンによって、StereoWalkerはトレーニングデータのわずか1.5%を使用して最先端のパフォーマンスを達成でき、フルデータを使用して最先端のデータを上回ります。
- 参考スコア(独自算出の注目度): 13.586199223564273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of foundation models in language and vision motivated research in fully end-to-end robot navigation foundation models (NFMs). NFMs directly map monocular visual input to control actions and ignore mid-level vision modules (tracking, depth estimation, etc) entirely. While the assumption that vision capabilities will emerge implicitly is compelling, it requires large amounts of pixel-to-action supervision that are difficult to obtain. The challenge is especially pronounced in dynamic and unstructured settings, where robust navigation requires precise geometric and dynamic understanding, while the depth-scale ambiguity in monocular views further limits accurate spatial reasoning. In this paper, we show that relying on monocular vision and ignoring mid-level vision priors is inefficient. We present StereoWalker, which augments NFMs with stereo inputs and explicit mid-level vision such as depth estimation and dense pixel tracking. Our intuition is straightforward: stereo inputs resolve the depth-scale ambiguity, and modern mid-level vision models provide reliable geometric and motion structure in dynamic scenes. We also curate a large stereo navigation dataset with automatic action annotation from Internet stereo videos to support training of StereoWalker and to facilitate future research. Through our experiments, we find that mid-level vision enables StereoWalker to achieve a comparable performance as the state-of-the-art using only 1.5% of the training data, and surpasses the state-of-the-art using the full data. We also observe that stereo vision yields higher navigation performance than monocular input.
- Abstract(参考訳): 言語と視覚における基礎モデルの成功は、完全なエンドツーエンドのロボットナビゲーション基礎モデル(NFM)の研究を動機づけた。
NFMは、モノクロ視覚入力を直接マッピングして、制御アクションをマッピングし、中レベルの視覚モジュール(追跡、深さ推定など)を完全に無視する。
視覚能力が暗黙的に現れるという仮定は説得力があるが、取得が困難である大量のピクセル対アクションの監視が必要である。
この課題は特に動的かつ非構造的な設定において顕著であり、ロバストなナビゲーションには正確な幾何学的および動的理解が必要であり、一方、モノラルビューの深さスケールの曖昧さはより正確な空間的推論を制限している。
本稿では,単眼視と中級視線を無視することは非効率であることを示す。
ステレオ入力と深度推定や高密度画素追跡などの明快な中間レベルビジョンでNFMを増強するStereoWalkerを提案する。
我々の直感は単純で、ステレオ入力は深度スケールの曖昧さを解消し、現代の中級視覚モデルは動的シーンにおいて信頼できる幾何学的・運動的構造を提供する。
また,StereoWalkerのトレーニングと今後の研究を支援するために,インターネットステレオビデオから自動アクションアノテーションを付加した大規模なステレオナビゲーションデータセットをキュレートする。
実験の結果、StereoWalkerはトレーニングデータのわずか1.5%しか使用せず、フルデータを使用して最先端の技術を上回り、最先端のパフォーマンスを達成できることが判明した。
また,立体視は単分子入力よりもナビゲーション性能が高いことも観察した。
関連論文リスト
- Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [70.67610495024459]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - MonSter++: Unified Stereo Matching, Multi-view Stereo, and Real-time Stereo with Monodepth Priors [52.39201779505421]
MonSter++は多視点深度推定の基礎モデルである。
多視点深度推定に単眼深度推定を組み込む。
MonSter++はステレオマッチングとマルチビューステレオの両方で新しい最先端を実現する。
論文 参考訳(メタデータ) (2025-01-15T08:11:24Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Self-Supervised Depth Completion for Active Stereo [55.79929735390945]
アクティブステレオシステムは、低コストで高品質な深度マップのため、ロボット産業で広く利用されている。
これらの深度センサーはステレオアーチファクトに悩まされており、密度の深い深度推定を提供していない。
本稿では, 高精度な深度マップを推定するアクティブステレオシステムのための, 自己監督型深度補完法を提案する。
論文 参考訳(メタデータ) (2021-10-07T07:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。