論文の概要: SPORTS: Simultaneous Panoptic Odometry, Rendering, Tracking and Segmentation for Urban Scenes Understanding
- arxiv url: http://arxiv.org/abs/2510.12749v1
- Date: Tue, 14 Oct 2025 17:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.419283
- Title: SPORTS: Simultaneous Panoptic Odometry, Rendering, Tracking and Segmentation for Urban Scenes Understanding
- Title(参考訳): SportS: 都市景観理解のための同時パノプティカルオドメトリー, レンダリング, 追跡, セグメンテーション
- Authors: Zhiliu Yang, Jinyu Dai, Jianyuan Zhang, Zhu Yang,
- Abstract要約: 本稿では,全体像理解のための新しいフレームワーク SPORTS を提案する。
Video Panoptic (VPS)、Visual Odometry (VO)、Scene Renderingタスクを反復的で統一された視点に統合する。
我々の注意に基づく特徴融合は、計測、追跡、セグメンテーション、新しいビュータスクにおいて、既存の最先端の合成方法よりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scene perception, understanding, and simulation are fundamental techniques for embodied-AI agents, while existing solutions are still prone to segmentation deficiency, dynamic objects' interference, sensor data sparsity, and view-limitation problems. This paper proposes a novel framework, named SPORTS, for holistic scene understanding via tightly integrating Video Panoptic Segmentation (VPS), Visual Odometry (VO), and Scene Rendering (SR) tasks into an iterative and unified perspective. Firstly, VPS designs an adaptive attention-based geometric fusion mechanism to align cross-frame features via enrolling the pose, depth, and optical flow modality, which automatically adjust feature maps for different decoding stages. And a post-matching strategy is integrated to improve identities tracking. In VO, panoptic segmentation results from VPS are combined with the optical flow map to improve the confidence estimation of dynamic objects, which enhances the accuracy of the camera pose estimation and completeness of the depth map generation via the learning-based paradigm. Furthermore, the point-based rendering of SR is beneficial from VO, transforming sparse point clouds into neural fields to synthesize high-fidelity RGB views and twin panoptic views. Extensive experiments on three public datasets demonstrate that our attention-based feature fusion outperforms most existing state-of-the-art methods on the odometry, tracking, segmentation, and novel view synthesis tasks.
- Abstract(参考訳): シーン認識、理解、シミュレーションはAIエージェントの基本的な技術であるが、既存のソリューションはまだセグメンテーションの欠如、ダイナミックオブジェクトの干渉、センサーデータの分散、ビューリミテーションの問題に悩まされている。
本稿では,ビデオパノプティクス・セグメンテーション(VPS),ビジュアルオドメトリー(VO),シーンレンダリング(SR)タスクを反復的かつ統一的な視点に統合することで,全体像理解のための新しいフレームワークであるSPORTSを提案する。
第一に、VPSはアダプティブアテンションベースの幾何融合機構を設計し、ポーズ、深さ、光学フローのモダリティを登録することで、異なる復号段階のフィーチャーマップを自動的に調整する。
また、アイデンティティ追跡を改善するために、ポストマッチング戦略が統合されている。
VOでは、VPSのパノプティカルセグメンテーション結果と光学フローマップを組み合わせることで、ダイナミックオブジェクトの信頼度推定を改善し、学習ベースパラダイムによるカメラポーズ推定と深度マップ生成の完全性を高める。
さらに、SRの点ベースのレンダリングはVOから恩恵を受け、スパース点雲をニューラルネットワークに変換して高忠実なRGBビューと双対パノプティクスビューを合成する。
3つの公開データセットに対する大規模な実験により、我々の注意に基づく特徴融合は、計測、追跡、セグメンテーション、および新しいビュー合成タスクにおいて、既存の最先端の手法よりも優れていることが示された。
関連論文リスト
- Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models [18.24287471339871]
ハイパースペクトルイメージング(HSI)は、多数の狭い波長帯にわたる密度のスペクトル測定とともに空間情報をキャプチャする。
本アーキテクチャでは、スペクトル変換器とスペクトル対応空間先行モジュールを組み込んで、豊富な空間スペクトル特徴を抽出する。
我々のアーキテクチャは、HSI入力を直接使用しながら、最先端のセマンティックセマンティックセマンティックセマンティクス性能を実現し、ビジョンベースとハイパースペクトルセマンティクスの両方のセマンティクス法より優れている。
論文 参考訳(メタデータ) (2025-09-24T13:32:07Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。