論文の概要: 4DSegStreamer: Streaming 4D Panoptic Segmentation via Dual Threads
- arxiv url: http://arxiv.org/abs/2510.17664v1
- Date: Mon, 20 Oct 2025 15:37:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.506422
- Title: 4DSegStreamer: Streaming 4D Panoptic Segmentation via Dual Threads
- Title(参考訳): 4DSegStreamer:デュアルスレッドによる4Dパノプティクスセグメンテーションのストリーミング
- Authors: Ling Liu, Jun Tian, Li Yi,
- Abstract要約: ストリーミングフレームを効率的に処理するためにDual-Thread Systemを使用する新しいフレームワークである4DSegStreamerを紹介した。
このフレームワークは汎用的で、既存の3Dおよび4Dセグメンテーションメソッドにシームレスに統合してリアルタイム機能を実現することができる。
また、既存のストリーミング認識アプローチと比較して、特に高いFPS条件下では、優れたロバスト性を示す。
- 参考スコア(独自算出の注目度): 17.413013509299933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D panoptic segmentation in a streaming setting is critical for highly dynamic environments, such as evacuating dense crowds and autonomous driving in complex scenarios, where real-time, fine-grained perception within a constrained time budget is essential. In this paper, we introduce 4DSegStreamer, a novel framework that employs a Dual-Thread System to efficiently process streaming frames. The framework is general and can be seamlessly integrated into existing 3D and 4D segmentation methods to enable real-time capability. It also demonstrates superior robustness compared to existing streaming perception approaches, particularly under high FPS conditions. The system consists of a predictive thread and an inference thread. The predictive thread leverages historical motion and geometric information to extract features and forecast future dynamics. The inference thread ensures timely prediction for incoming frames by aligning with the latest memory and compensating for ego-motion and dynamic object movements. We evaluate 4DSegStreamer on the indoor HOI4D dataset and the outdoor SemanticKITTI and nuScenes datasets. Comprehensive experiments demonstrate the effectiveness of our approach, particularly in accurately predicting dynamic objects in complex scenes.
- Abstract(参考訳): ストリーミング環境における4Dパノプティクスのセグメンテーションは、密集した群衆の避難や複雑なシナリオにおける自律運転といった、制約された時間予算内でのリアルタイムできめ細かな認識が不可欠である、非常にダイナミックな環境において重要である。
本稿では,Dual-Thread Systemを用いてストリーミングフレームを効率的に処理する新しいフレームワークである4DSegStreamerを紹介する。
このフレームワークは汎用的で、既存の3Dおよび4Dセグメンテーションメソッドにシームレスに統合してリアルタイム機能を実現することができる。
また、既存のストリーミング認識アプローチと比較して、特に高いFPS条件下では、優れたロバスト性を示す。
システムは予測スレッドと推論スレッドで構成される。
予測スレッドは、歴史的動きと幾何学的情報を利用して特徴を抽出し、将来のダイナミクスを予測する。
推論スレッドは、最新のメモリと整列し、エゴモーションとダイナミックオブジェクトの動きを補償することにより、入ってくるフレームのタイムリーな予測を保証する。
室内HOI4Dデータセットと屋外SemanticKITTIおよびnuScenesデータセットの4DSegStreamerを評価した。
総合的な実験は、複雑な場面における動的物体の正確な予測において、我々のアプローチの有効性を実証する。
関連論文リスト
- Streaming 4D Visual Geometry Transformer [63.99937807085461]
入力シーケンスをオンラインで処理するストリーミング4Dビジュアルジオメトリ変換器を提案する。
時間的因果的注意を用いて、履歴キーと値を暗黙記憶としてキャッシュし、より効率的な長期4D再構成を可能にする。
各種4次元幾何知覚ベンチマーク実験により,オンラインシナリオにおける推論速度の向上が示された。
論文 参考訳(メタデータ) (2025-07-15T17:59:57Z) - $I^{2}$-World: Intra-Inter Tokenization for Efficient Dynamic 4D Scene Forecasting [2.722128680610171]
I2$-Worldは、4D占有率予測のための効率的なフレームワークである。
本手法は,シーントークン化をシーン内およびシーン間トークン化剤に分解する。
I2$-Worldは最先端のパフォーマンスを達成し、既存の手法を25.1%のmIoUで、36.9%のIoUで4D占有率予測で上回っている。
論文 参考訳(メタデータ) (2025-07-12T05:14:39Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - DiST-4D: Disentangled Spatiotemporal Diffusion with Metric Depth for 4D Driving Scene Generation [50.01520547454224]
現在の生成モデルは、時空間外挿と空間新規ビュー合成(NVS)を同時にサポートする4次元駆動シーンの合成に苦慮している
本研究では,2つの拡散過程に分散するDiST-4Dを提案する。DST-Tは過去の観測結果から直接,将来の距離深度と多視点RGBシーケンスを予測し,DST-Sは,既存の視点でのみ空間的NVSを訓練し,サイクル整合性を実現する。
実験により、DiST-4Dは時間的予測とNVSタスクの両方において最先端のパフォーマンスを達成し、同時に計画関連評価において競合性能を提供することが示された。
論文 参考訳(メタデータ) (2025-03-19T13:49:48Z) - Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。
我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。
Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文 参考訳(メタデータ) (2024-12-09T18:58:03Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。