論文の概要: KM-ViPE: Online Tightly Coupled Vision-Language-Geometry Fusion for Open-Vocabulary Semantic SLAM
- arxiv url: http://arxiv.org/abs/2512.01889v1
- Date: Mon, 01 Dec 2025 17:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.97942
- Title: KM-ViPE: Online Tightly Coupled Vision-Language-Geometry Fusion for Open-Vocabulary Semantic SLAM
- Title(参考訳): KM-ViPE:オープンボキャブラリセマンティックSLAMのためのオンラインタイト結合型ビジョンランゲージジオメトリフュージョン
- Authors: Zaid Nasser, Mikhail Iumanov, Tianhao Li, Maxim Popov, Jaafar Mahmoud, Malik Mohrat, Ilya Obrubov, Ekaterina Derevyanka, Ivan Sosin, Sergey Kolyubin,
- Abstract要約: KM-ViPEは動的環境下での非校正モノクロカメラのためのリアルタイムオープンボキャブラリSLAMフレームワークである。
深度センサーやオフラインキャリブレーションを必要とするシステムとは異なり、KM-ViPEは生のRGBストリームで直接動作する。
- 参考スコア(独自算出の注目度): 3.14818998227711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present KM-ViPE (Knowledge Mapping Video Pose Engine), a real-time open-vocabulary SLAM framework for uncalibrated monocular cameras in dynamic environments. Unlike systems requiring depth sensors and offline calibration, KM-ViPE operates directly on raw RGB streams, making it ideal for ego-centric applications and harvesting internet-scale video data for training. KM-ViPE tightly couples DINO visual features with geometric constraints through a high-level features based adaptive robust kernel that handles both moving objects and movable static objects (e.g., moving furniture in ego-centric views). The system performs simultaneous online localization and open-vocabulary semantic mapping by fusing geometric and deep visual features aligned with language embeddings. Our results are competitive with state-of-the-art approaches, while existing solutions either operate offline, need depth data and/or odometry estimation, or lack dynamic scene robustness. KM-ViPE benefits from internet-scale training and uniquely combines online operation, uncalibrated monocular input, and robust handling of dynamic scenes, which makes it a good fit for autonomous robotics and AR/VR applications and advances practical spatial intelligence capabilities for embodied AI.
- Abstract(参考訳): KM-ViPE(Knowledge Mapping Video Pose Engine)は,動的環境下でのモノクロカメラのリアルタイムオープン語彙SLAMフレームワークである。
深度センサーやオフラインキャリブレーションを必要とするシステムとは異なり、KM-ViPEは生のRGBストリームを直接運用する。
KM-ViPEは、動くオブジェクトと動く静的オブジェクト(例えば、エゴ中心のビューで動く家具)の両方を扱う高レベルな機能ベースのアダプティブ・ロバストなカーネルを通じて、DINOの視覚的特徴と幾何的制約を密に結合する。
本システムは,幾何学的特徴と深い視覚的特徴を言語埋め込みに整合させて,オンライン・ローカライゼーションとオープン語彙意味マッピングを同時に行う。
我々の結果は最先端のアプローチと競合するが、既存のソリューションはオフラインで動作し、深度データやオードメトリの見積が必要か、ダイナミックなシーンのロバスト性が欠如している。
KM-ViPEはインターネット規模のトレーニングの恩恵を受けており、オンライン操作、モノクラー入力、動的シーンの堅牢なハンドリングを独自に組み合わせている。
関連論文リスト
- Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception [8.542874528320004]
既存のビジョンモデルと固定RGB-Dカメラシステムは、細かな詳細取得で広域範囲を調整できない。
本研究では,アクティブな視覚知覚のためのロボット眼球であるEyeVLAを提案する。
論文 参考訳(メタデータ) (2025-11-19T09:42:08Z) - SPORTS: Simultaneous Panoptic Odometry, Rendering, Tracking and Segmentation for Urban Scenes Understanding [0.0]
本稿では,全体像理解のための新しいフレームワーク SPORTS を提案する。
Video Panoptic (VPS)、Visual Odometry (VO)、Scene Renderingタスクを反復的で統一された視点に統合する。
我々の注意に基づく特徴融合は、計測、追跡、セグメンテーション、新しいビュータスクにおいて、既存の最先端の合成方法よりも優れています。
論文 参考訳(メタデータ) (2025-10-14T17:28:19Z) - SpikeGen: Decoupled "Rods and Cones" Visual Representation Processing with Latent Generative Framework [53.27177454390712]
本研究では,現代の潜在空間生成フレームワークとマルチモーダル視覚入力を統合することで,人間の視覚システムをエミュレートすることを目的とする。
我々はSpikeGenと命名し、条件付き画像やビデオの劣化、スパイクストリームからの高密度フレーム再構成、高速シーンノベルビュー合成など、様々なスパイクRGBタスクのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2025-05-23T15:54:11Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - SAVi++: Towards End-to-End Object-Centric Learning from Real-World
Videos [23.64091569954785]
スロットベースのビデオ表現から深度信号を予測するために訓練されたオブジェクト中心のビデオモデルSAVi++を紹介する。
LiDARから得られたスパースディープ信号を使用することで、SAVi++は現実世界のOpenデータセットで、創発的なオブジェクトセグメンテーションとビデオからのトラッキングを学習することができる。
論文 参考訳(メタデータ) (2022-06-15T18:57:07Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Self-Supervised Deep Visual Odometry with Online Adaptation [35.90781281010656]
本稿では,VOネットワークが自己指導型で新しい環境に継続的に適応できるオンラインメタ学習アルゴリズムを提案する。
提案手法は,最先端の自己教師型VOベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2020-05-13T03:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。