論文の概要: MASt3R-Nav: WayPixel Navigation in Relative 3D Maps
- arxiv url: http://arxiv.org/abs/2605.24111v1
- Date: Fri, 22 May 2026 18:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.635634
- Title: MASt3R-Nav: WayPixel Navigation in Relative 3D Maps
- Title(参考訳): MASt3R-Nav: 相対的な3DマップにおけるWayPixelナビゲーション
- Authors: Vansh Garg, Rohit Jayanti, Krish Pandya, Sarthak Chittawar, Siddharth Tourani, Muhammad Haris Khan, Sourav Garg, Madhava Krishna,
- Abstract要約: 本稿では,画素相対接続方式の新たなマップ表現を提案する。
近年の3次元接地画像マッチングの進歩に触発されて,画像列から地図を構築する。
相対幾何学に基づくこの高密度画素レベルのコストマップは、画像やオブジェクトレベルのコストマップよりも、制御予測のためのより正確な条件付き変数であることが示される。
- 参考スコア(独自算出の注目度): 21.489070961711548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual navigation ability is strongly tied to its underlying representation of the world. Unlike classical 3D maps that require globally-consistent geometry, image- or object-relative topological graphs almost entirely do away with geometric understanding. But, this comes at the cost of navigation capability, often limiting it to merely teach-and-repeat. In this work, we propose a novel map representation in the form of pixel-relative connectivity, which is geometrically accurate but does not require global geometric consistency. Inspired by recent progress in 3D grounded image matching, we construct a map from an image sequence through inter-image connectivity based on pixel correspondences in the relative 3D coordinate systems of individual image pairs. We then use this pixel-level graph to perform global path planning by approximating and sparsifying intra-image pixel connectivity. Through this, we derive a ''WayPixel Costmap'' representation and train a controller conditioned on it to predict a trajectory rollout. We show that this dense pixel-level costmap based on relative geometry is a more accurate conditioning variable for control prediction than its image- and object-level counterparts. This enables a highly capable navigation system, as validated on four types of navigation tasks in the simulator and through real world demonstrations.
- Abstract(参考訳): ビジュアルナビゲーション能力は、その根底にある世界の表現と強く結びついている。
グローバルに一貫性のある幾何学を必要とする古典的な3Dマップとは異なり、画像または対象相対トポロジーグラフは、ほぼ完全に幾何学的理解を欠いている。
しかし、これはナビゲーション能力のコストが伴うため、しばしば単に教えるだけに制限される。
本研究では、幾何学的に正確であるが、大域的な幾何学的整合性を必要としない画素相対接続方式の新たな地図表現を提案する。
画像対の相対的な3次元座標系における画素対応に基づいて,画像列から画像間の接続を通してマップを構築する。
次に、このピクセルレベルのグラフを用いて、画像内接続を近似し、スパース化することで、グローバルパス計画を行う。
これにより、'WayPixel Costmap'表現を導き、その上に条件付きコントローラを訓練して、軌道のロールアウトを予測する。
相対幾何学に基づくこの高密度画素レベルのコストマップは、画像やオブジェクトレベルのコストマップよりも、制御予測のためのより正確な条件付き変数であることが示される。
これにより、シミュレータの4種類のナビゲーションタスクや実世界のデモを通じて検証されるように、高度に機能するナビゲーションシステムが可能になる。
関連論文リスト
- Tango3D: Towards Alignment for Global and Local 2D-3D Correspondence [28.712695548782037]
我々は,高密度対応とグローバル検索を統一する基盤モデルであるTango3Dを提案する。
画像の2次元パッチへのエンコードや,雲の3次元トークンへのポインティングには,幾何学的に認識された2次元視覚バックボーンと,事前訓練された3次元VAEを用いる。
実験により, 競合するグローバル検索を維持しつつ, オブジェクトレベルの画素間アライメントを実現することができた。
論文 参考訳(メタデータ) (2026-05-19T12:01:23Z) - IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation [76.36174247570716]
ポーズレス多視点画像から連続的かつ一貫性のある幾何を暗黙的にモデル化するインプリシトビジュアル幾何変換器IVGTを提案する。
IVGTは標準座標系で連続的なニューラルネットワークシーン表現を学習し、任意の3D位置での連続的な空間クエリをサポートする。
連続的かつコヒーレントな表面形状の直接抽出を可能にし、任意の視点からRGB画像、深度マップ、表面正規写像のレンダリングを可能にする。
論文 参考訳(メタデータ) (2026-05-15T17:59:57Z) - Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels [67.36972154532761]
モノクロビデオから各ピクセルの3D軌跡を推定することは重要であり、ビデオの3Dダイナミックスを包括的に理解する上で有望である。
最近のモノラルな3D追跡作業は印象的な性能を示しているが、第1フレーム上のスパースポイントのトラッキングや、高密度トラッキングのための遅い最適化ベースのフレームワークに限られている。
そこで我々は,Track4Worldと呼ばれるフィードフォワードモデルを提案し,世界中心座標系における全画素の効率的な3D追跡を可能にする。
論文 参考訳(メタデータ) (2026-03-03T03:45:43Z) - ObjectReact: Learning Object-Relative Control for Visual Navigation [10.645109937081681]
本稿では,いくつかの望ましい特徴を示す「対象相対性」制御の学習パラダイムを提案する。
本稿では「相対的」な3次元シーングラフの形でのトポロジカルマップ表現を提案する。
センサ高さの異なる画像に対して,物体相対制御を学習することの利点を実証する。
論文 参考訳(メタデータ) (2025-09-11T16:34:17Z) - IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation [78.00035681410348]
IGL-Navは、効率的で3D対応の画像ゴールナビゲーションのためのインクリメンタルな3Dガウスフレームワークである。
より困難な自由視点のイメージゴール設定を処理し、現実世界のロボットプラットフォームにデプロイすることができる。
論文 参考訳(メタデータ) (2025-08-01T17:59:56Z) - Monocular Road Planar Parallax Estimation [25.36368935789501]
乾燥可能な表面および周囲環境の3次元構造を推定することは、補助的かつ自律的な運転にとって重要な課題である。
単眼画像からの3Dセンシングのための新しいディープニューラルネットワークであるRoad Planar Parallax Attention Network (RPANet)を提案する。
RPANetは、路面のホモグラフィに整列した一対の画像を入力として取り、3D再構成のための$gamma$mapを出力する。
論文 参考訳(メタデータ) (2021-11-22T10:03:41Z) - Joint Deep Multi-Graph Matching and 3D Geometry Learning from
Inhomogeneous 2D Image Collections [57.60094385551773]
非均質な画像コレクションから変形可能な3Dジオメトリモデルを学ぶためのトレーニング可能なフレームワークを提案する。
さらに,2次元画像で表現された物体の3次元形状も取得する。
論文 参考訳(メタデータ) (2021-03-31T17:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。