論文の概要: ReScene4D: Temporally Consistent Semantic Instance Segmentation of Evolving Indoor 3D Scenes
- arxiv url: http://arxiv.org/abs/2601.11508v1
- Date: Fri, 16 Jan 2026 18:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.6014
- Title: ReScene4D: Temporally Consistent Semantic Instance Segmentation of Evolving Indoor 3D Scenes
- Title(参考訳): ReScene4D: 進化する屋内3Dシーンの時間的に連続したセマンティックセマンティックセマンティックセグメンテーション
- Authors: Emily Steiner, Jianhao Zheng, Henry Howard-Jenkins, Chris Xie, Iro Armeni,
- Abstract要約: 時間的にスパースな4D屋内セマンティック・インスタンス・セグメンテーション(SIS)のタスクを導入し、形式化する。
本稿では,ReScene4Dを提案する。ReScene4Dは,高密度な観測を必要とせずに,3DSISアーキテクチャを4DSISに適用する新しい手法である。
この課題を評価するために、時間的アイデンティティ整合性に報いるため、mAPを拡張した新しい計量 t-mAP を定義する。
- 参考スコア(独自算出の注目度): 11.119542051581917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Indoor environments evolve as objects move, appear, or disappear. Capturing these dynamics requires maintaining temporally consistent instance identities across intermittently captured 3D scans, even when changes are unobserved. We introduce and formalize the task of temporally sparse 4D indoor semantic instance segmentation (SIS), which jointly segments, identifies, and temporally associates object instances. This setting poses a challenge for existing 3DSIS methods, which require a discrete matching step due to their lack of temporal reasoning, and for 4D LiDAR approaches, which perform poorly due to their reliance on high-frequency temporal measurements that are uncommon in the longer-horizon evolution of indoor environments. We propose ReScene4D, a novel method that adapts 3DSIS architectures for 4DSIS without needing dense observations. It explores strategies to share information across observations, demonstrating that this shared context not only enables consistent instance tracking but also improves standard 3DSIS quality. To evaluate this task, we define a new metric, t-mAP, that extends mAP to reward temporal identity consistency. ReScene4D achieves state-of-the-art performance on the 3RScan dataset, establishing a new benchmark for understanding evolving indoor scenes.
- Abstract(参考訳): オブジェクトが動く、現れる、または消えるにつれて、屋内環境は進化する。
これらのダイナミクスをキャプチャするには、変更が観測されていない場合でも、断続的にキャプチャされた3Dスキャン間で時間的に一貫したインスタンスIDを維持する必要がある。
本研究では,4次元屋内セマンティック・インスタンス・セグメンテーション(SIS)のタスクを導入,形式化し,オブジェクト・インスタンスを共同でセグメント化し,識別し,時間的に関連付ける。
この設定は、時間的推論の欠如により離散的なマッチングステップを必要とする既存の3DSIS法と、4D LiDAR法では、屋内環境の長期水平進化において珍しい高周波時間的測定に依存しないため、性能が低下する4D LiDAR法に課題を提起する。
本稿では,ReScene4Dを提案する。ReScene4Dは,高密度な観測を必要とせずに,3DSISアーキテクチャを4DSISに適用する新しい手法である。
この共有コンテキストは、一貫したインスタンス追跡を可能にするだけでなく、標準的な3DSISの品質も向上する。
この課題を評価するために、時間的アイデンティティ整合性に報いるため、mAPを拡張した新しい計量 t-mAP を定義する。
ReScene4Dは3RScanデータセット上で最先端のパフォーマンスを実現し、進化する屋内シーンを理解するための新しいベンチマークを確立する。
関連論文リスト
- SNOW: Spatio-Temporal Scene Understanding with World Knowledge for Open-World Embodied Reasoning [11.93789125154006]
本稿では,VLMから派生したセマンティクスと点雲の幾何と時間的整合性を統合した4次元シーン理解フレームワークを提案する。
SNOWプロセスは、HDBSCANクラスタリングを使用して、同期された3Dポイントクラウドを同期し、セグメンテーション提案を生成する。
多様なベンチマークの実験により、SNOWは正確な4Dシーンの理解と空間的接地推論を可能にした。
論文 参考訳(メタデータ) (2025-12-18T12:27:06Z) - Online Segment Any 3D Thing as Instance Tracking [60.20416622842975]
オンライン3Dセグメンテーションをインスタンス追跡問題として再認識する(AutoSeg3D)。
視覚基礎モデルに固有の断片化問題を緩和するために,空間整合性学習を導入する。
ScanNet200上でESAMを2.8 AP上回る新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2025-12-08T14:48:51Z) - SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis [53.10680153186481]
SCas4Dは3次元ガウススプラッティングにおける構造パターンを動的シーンに活用するカスケード最適化フレームワークである。
SCas4Dは、粗い部分レベルから細い点レベルへの変形を段階的に精製することにより、時間フレーム当たり100イテレーション以内の収束を実現する。
このアプローチはまた、自己教師付きオブジェクトセグメンテーション、新しいビュー合成、および高密度点追跡タスクにおける効果を示す。
論文 参考訳(メタデータ) (2025-10-08T06:39:33Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - DiST-4D: Disentangled Spatiotemporal Diffusion with Metric Depth for 4D Driving Scene Generation [50.01520547454224]
現在の生成モデルは、時空間外挿と空間新規ビュー合成(NVS)を同時にサポートする4次元駆動シーンの合成に苦慮している
本研究では,2つの拡散過程に分散するDiST-4Dを提案する。DST-Tは過去の観測結果から直接,将来の距離深度と多視点RGBシーケンスを予測し,DST-Sは,既存の視点でのみ空間的NVSを訓練し,サイクル整合性を実現する。
実験により、DiST-4Dは時間的予測とNVSタスクの両方において最先端のパフォーマンスを達成し、同時に計画関連評価において競合性能を提供することが示された。
論文 参考訳(メタデータ) (2025-03-19T13:49:48Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Living Scenes: Multi-object Relocalization and Reconstruction in Changing 3D Environments [20.890476387720483]
MoREは進化する環境における多目的再局在と再構成のための新しいアプローチである。
これらの環境を「生きたシーン」とみなし、異なる時点のスキャンをオブジェクトインスタンスの3次元再構成に変換する問題について考察する。
論文 参考訳(メタデータ) (2023-12-14T17:09:57Z) - Mask4Former: Mask Transformer for 4D Panoptic Segmentation [13.99703660936949]
Mask4Formerは、セマンティックインスタンスのセグメンテーションとトラッキングを統合する最初のトランスフォーマーベースのアプローチである。
本モデルは,手作りの非学習型アソシエーション戦略に頼ることなく,その時間的アソシエーションのセマンティックインスタンスを直接予測する。
Mask4Formerは68.4 LSTQのスコアでSemanticTITIテストセットの最先端を達成している。
論文 参考訳(メタデータ) (2023-09-28T03:30:50Z) - 4D Panoptic LiDAR Segmentation [27.677435778317054]
意味クラスと時間的に一貫性のあるインスタンスIDを3Dポイントのシーケンスに割り当てる4DパノプティカルLiDARセグメンテーションを提案する。
マルチオブジェクトトラッキングのベンチマークの最近の進歩に触発され、タスクのセマンティクスとポイントツーインスタンスの関連を分離する新しい評価指標を採用することを提案する。
論文 参考訳(メタデータ) (2021-02-24T18:56:16Z) - Unsupervised Domain Adaptation with Temporal-Consistent Self-Training
for 3D Hand-Object Joint Reconstruction [131.34795312667026]
サイクル生成逆数ネットワーク(CycleGAN)内の3次元幾何学的制約を利用してこの問題に対処する効果的なアプローチを提案する。
既存のほとんどの研究とは対照的に、ドメイン適応モデルを自己管理的に微調整するために、短期的および長期的時間的整合性を強制することを提案する。
本研究では,3つのベンチマークを用いて,最先端の3Dハンドオブジェ共同再建手法を上回っていることを実証する。
論文 参考訳(メタデータ) (2020-12-21T11:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。