論文の概要: Online Segment Any 3D Thing as Instance Tracking
- arxiv url: http://arxiv.org/abs/2512.07599v1
- Date: Mon, 08 Dec 2025 14:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.931013
- Title: Online Segment Any 3D Thing as Instance Tracking
- Title(参考訳): オンラインのセグメンテーションで3D画像の追跡が可能に
- Authors: Hanshi Wang, Zijian Cai, Jin Gao, Yiwei Zhang, Weiming Hu, Ke Wang, Zhipeng Zhang,
- Abstract要約: オンライン3Dセグメンテーションをインスタンス追跡問題として再認識する(AutoSeg3D)。
視覚基礎モデルに固有の断片化問題を緩和するために,空間整合性学習を導入する。
ScanNet200上でESAMを2.8 AP上回る新しい最先端技術を確立する。
- 参考スコア(独自算出の注目度): 60.20416622842975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online, real-time, and fine-grained 3D segmentation constitutes a fundamental capability for embodied intelligent agents to perceive and comprehend their operational environments. Recent advancements employ predefined object queries to aggregate semantic information from Vision Foundation Models (VFMs) outputs that are lifted into 3D point clouds, facilitating spatial information propagation through inter-query interactions. Nevertheless, perception is an inherently dynamic process, rendering temporal understanding a critical yet overlooked dimension within these prevailing query-based pipelines. Therefore, to further unlock the temporal environmental perception capabilities of embodied agents, our work reconceptualizes online 3D segmentation as an instance tracking problem (AutoSeg3D). Our core strategy involves utilizing object queries for temporal information propagation, where long-term instance association promotes the coherence of features and object identities, while short-term instance update enriches instant observations. Given that viewpoint variations in embodied robotics often lead to partial object visibility across frames, this mechanism aids the model in developing a holistic object understanding beyond incomplete instantaneous views. Furthermore, we introduce spatial consistency learning to mitigate the fragmentation problem inherent in VFMs, yielding more comprehensive instance information for enhancing the efficacy of both long-term and short-term temporal learning. The temporal information exchange and consistency learning facilitated by these sparse object queries not only enhance spatial comprehension but also circumvent the computational burden associated with dense temporal point cloud interactions. Our method establishes a new state-of-the-art, surpassing ESAM by 2.8 AP on ScanNet200 and delivering consistent gains on ScanNet, SceneNN, and 3RScan datasets.
- Abstract(参考訳): オンライン、リアルタイム、きめ細かい3Dセグメンテーションは、知的エージェントが運用環境を知覚し理解するための基本的な能力である。
近年の進歩は、VFM(Vision Foundation Models)出力から事前に定義されたオブジェクトクエリを使用して、3Dポイントクラウドに持ち上げられ、クエリ間相互作用による空間情報の伝播を容易にする。
それでも、知覚は本質的にダイナミックなプロセスであり、これらの一般的なクエリベースのパイプラインの中で、時間的理解が重要で見過ごされている次元を表現している。
そこで, 本研究は, オンライン3Dセグメンテーションをインスタンス追跡問題(AutoSeg3D)として再認識する。
我々の中核的な戦略は、オブジェクトクエリを時間的情報伝達に利用することであり、長期のインスタンスアソシエーションは特徴とオブジェクトのアイデンティティの一貫性を促進し、短期のインスタンス更新は瞬間的な観測を豊かにする。
インボディード・ロボティクスにおける視点のバリエーションは、しばしばフレーム全体の部分的な物体視認に繋がるので、このメカニズムは、不完全な瞬間的な視点を超えて全体的物体理解を開発するモデルに役立つ。
さらに, VFMに固有の断片化問題を緩和するために空間的整合性学習を導入し, 長期学習と短期学習の両方の有効性を高めるためのより包括的な事例情報を得た。
これらのスパースオブジェクトクエリによって促進される時間的情報交換と一貫性学習は、空間的理解を高めるだけでなく、密集した時間的点雲相互作用に伴う計算負担を回避する。
ScanNet200ではESAMを2.8 AP超え、ScanNet, SceneNN, 3RScanデータセットで一貫したゲインを提供する。
関連論文リスト
- Which2comm: An Efficient Collaborative Perception Framework for 3D Object Detection [5.195291754828701]
協調認識は、リアルタイムのエージェント間の情報交換を可能にする。
実用シナリオにおける通信帯域幅の制限は、エージェント間データ転送量を制限する。
オブジェクトレベルのスパース機能を利用した新しいマルチエージェント3Dオブジェクト検出フレームワークであるH which2commを提案する。
論文 参考訳(メタデータ) (2025-03-21T14:24:07Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Spatio-temporal Tendency Reasoning for Human Body Pose and Shape
Estimation from Videos [10.50306784245168]
ビデオから人体ポーズの形状を復元するための時間的傾向推論(STR)ネットワークを提案する。
我々のSTRは、制約のない環境で正確で空間的な動きのシーケンスを学習することを目的としている。
STRは3つのデータセットの最先端と競合し続けています。
論文 参考訳(メタデータ) (2022-10-07T16:09:07Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。