論文の概要: Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision
- arxiv url: http://arxiv.org/abs/2512.10956v1
- Date: Thu, 11 Dec 2025 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.582902
- Title: Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision
- Title(参考訳): ステレオ・中層視による動的都市ナビゲーション
- Authors: Wentao Zhou, Xuweiyi Chen, Vignesh Rajagopal, Jeffrey Chen, Rohan Chandra, Zezhou Cheng,
- Abstract要約: 単眼視と中級視線を無視することは非効率であることを示す。
ステレオ入力と深度推定や高密度画素追跡などの明快な中間レベルビジョンでNFMを増強するStereoWalkerを提案する。
中間レベルのビジョンによって、StereoWalkerはトレーニングデータのわずか1.5%を使用して最先端のパフォーマンスを達成でき、フルデータを使用して最先端のデータを上回ります。
- 参考スコア(独自算出の注目度): 13.586199223564273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of foundation models in language and vision motivated research in fully end-to-end robot navigation foundation models (NFMs). NFMs directly map monocular visual input to control actions and ignore mid-level vision modules (tracking, depth estimation, etc) entirely. While the assumption that vision capabilities will emerge implicitly is compelling, it requires large amounts of pixel-to-action supervision that are difficult to obtain. The challenge is especially pronounced in dynamic and unstructured settings, where robust navigation requires precise geometric and dynamic understanding, while the depth-scale ambiguity in monocular views further limits accurate spatial reasoning. In this paper, we show that relying on monocular vision and ignoring mid-level vision priors is inefficient. We present StereoWalker, which augments NFMs with stereo inputs and explicit mid-level vision such as depth estimation and dense pixel tracking. Our intuition is straightforward: stereo inputs resolve the depth-scale ambiguity, and modern mid-level vision models provide reliable geometric and motion structure in dynamic scenes. We also curate a large stereo navigation dataset with automatic action annotation from Internet stereo videos to support training of StereoWalker and to facilitate future research. Through our experiments, we find that mid-level vision enables StereoWalker to achieve a comparable performance as the state-of-the-art using only 1.5% of the training data, and surpasses the state-of-the-art using the full data. We also observe that stereo vision yields higher navigation performance than monocular input.
- Abstract(参考訳): 言語と視覚における基礎モデルの成功は、完全なエンドツーエンドのロボットナビゲーション基礎モデル(NFM)の研究を動機づけた。
NFMは、モノクロ視覚入力を直接マッピングして、制御アクションをマッピングし、中レベルの視覚モジュール(追跡、深さ推定など)を完全に無視する。
視覚能力が暗黙的に現れるという仮定は説得力があるが、取得が困難である大量のピクセル対アクションの監視が必要である。
この課題は特に動的かつ非構造的な設定において顕著であり、ロバストなナビゲーションには正確な幾何学的および動的理解が必要であり、一方、モノラルビューの深さスケールの曖昧さはより正確な空間的推論を制限している。
本稿では,単眼視と中級視線を無視することは非効率であることを示す。
ステレオ入力と深度推定や高密度画素追跡などの明快な中間レベルビジョンでNFMを増強するStereoWalkerを提案する。
我々の直感は単純で、ステレオ入力は深度スケールの曖昧さを解消し、現代の中級視覚モデルは動的シーンにおいて信頼できる幾何学的・運動的構造を提供する。
また,StereoWalkerのトレーニングと今後の研究を支援するために,インターネットステレオビデオから自動アクションアノテーションを付加した大規模なステレオナビゲーションデータセットをキュレートする。
実験の結果、StereoWalkerはトレーニングデータのわずか1.5%しか使用せず、フルデータを使用して最先端の技術を上回り、最先端のパフォーマンスを達成できることが判明した。
また,立体視は単分子入力よりもナビゲーション性能が高いことも観察した。
関連論文リスト
- DeFM: Learning Foundation Representations from Depth for Robotics [49.77188649197404]
DeFMはロボットアプリケーションのための深度画像に基づいて訓練された自己教師型基礎モデルである。
DeFMは幾何学的および意味的な表現を学び、様々な環境、タスク、センサーに一般化する。
最先端の性能を達成し、シミュレーションから実環境への強力な一般化を実証する。
論文 参考訳(メタデータ) (2026-01-26T19:45:31Z) - VIMD: Monocular Visual-Inertial Motion and Depth Estimation [8.959715109842742]
我々は,高密度な距離深さを推定するために,単眼の視覚-慣性運動と深度学習フレームワークを開発した。
中心となるVIMDは、複数ビュー情報を利用してピクセル単位のスケールを反復的に洗練することである。
以上の結果から,画像あたり10~20メートルの奥行きが極めて少ない場合でも,VIMDの精度と頑健性は極めて高いことがわかった。
論文 参考訳(メタデータ) (2025-09-24T02:50:55Z) - StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes [14.61785829674974]
水中ステレオ深度推定は、ナビゲーション、検査、マッピングといったロボティクスのタスクに正確な3D幾何学を提供する。
既存のアプローチは、2つの重要な課題に直面している: (i) 大きな視覚基盤エンコーダを広範囲のラベル付きデータなしで水中ドメインに適応させ、 (ii) グローバルコヒーレントだがスケールアンビグラスなモノクル先行を局所的にメートル法で表されるが、フォトメトリック的に壊れやすいステレオ通信で密に融合する。
本稿では,LoRA適応単分子ファンデーションエンコーダと繰り返しステレオリファインメントモジュールを統合したパラメータ効率の高い自己教師型フレームワークであるStereoAdapterを提案する。
論文 参考訳(メタデータ) (2025-09-19T20:57:03Z) - Object Concepts Emerge from Motion [24.73461163778215]
教師なしの方法でオブジェクト中心の視覚表現を学習するための生物学的にインスパイアされたフレームワークを提案する。
我々の重要な洞察は、運動境界がオブジェクトレベルのグルーピングの強いシグナルとなることである。
我々のフレームワークは完全にラベルフリーで、カメラキャリブレーションに頼らず、大規模な非構造化ビデオデータにスケーラブルである。
論文 参考訳(メタデータ) (2025-05-27T18:09:02Z) - Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [70.67610495024459]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - MonSter++: Unified Stereo Matching, Multi-view Stereo, and Real-time Stereo with Monodepth Priors [52.39201779505421]
MonSter++は多視点深度推定の基礎モデルである。
多視点深度推定に単眼深度推定を組み込む。
MonSter++はステレオマッチングとマルチビューステレオの両方で新しい最先端を実現する。
論文 参考訳(メタデータ) (2025-01-15T08:11:24Z) - Playing to Vision Foundation Model's Strengths in Stereo Matching [13.887661472501618]
本研究は,視覚基礎モデル(VFM)をステレオマッチングに適用するための有効なアプローチを初めて探求した。
当社のViTアダプタは,空間微分,パッチアテンション融合,クロスアテンションの3種類のモジュール上に構築されている。
ViTAStereoは、エラーピクセルのパーセンテージで2番目に高いネットワークであるStereoBaseを約7.9%上回り、耐性は3ピクセルである。
論文 参考訳(メタデータ) (2024-04-09T12:34:28Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Self-Supervised Depth Completion for Active Stereo [55.79929735390945]
アクティブステレオシステムは、低コストで高品質な深度マップのため、ロボット産業で広く利用されている。
これらの深度センサーはステレオアーチファクトに悩まされており、密度の深い深度推定を提供していない。
本稿では, 高精度な深度マップを推定するアクティブステレオシステムのための, 自己監督型深度補完法を提案する。
論文 参考訳(メタデータ) (2021-10-07T07:33:52Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。