論文の概要: Mask4Former: Mask Transformer for 4D Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2309.16133v2
- Date: Wed, 10 Apr 2024 21:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 19:18:11.971444
- Title: Mask4Former: Mask Transformer for 4D Panoptic Segmentation
- Title(参考訳): Mask4Former: 4Dパノプティカルセグメンテーションのためのマスクトランス
- Authors: Kadir Yilmaz, Jonas Schult, Alexey Nekrasov, Bastian Leibe,
- Abstract要約: Mask4Formerは、セマンティックインスタンスのセグメンテーションとトラッキングを統合する最初のトランスフォーマーベースのアプローチである。
本モデルは,手作りの非学習型アソシエーション戦略に頼ることなく,その時間的アソシエーションのセマンティックインスタンスを直接予測する。
Mask4Formerは68.4 LSTQのスコアでSemanticTITIテストセットの最先端を達成している。
- 参考スコア(独自算出の注目度): 13.99703660936949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately perceiving and tracking instances over time is essential for the decision-making processes of autonomous agents interacting safely in dynamic environments. With this intention, we propose Mask4Former for the challenging task of 4D panoptic segmentation of LiDAR point clouds. Mask4Former is the first transformer-based approach unifying semantic instance segmentation and tracking of sparse and irregular sequences of 3D point clouds into a single joint model. Our model directly predicts semantic instances and their temporal associations without relying on hand-crafted non-learned association strategies such as probabilistic clustering or voting-based center prediction. Instead, Mask4Former introduces spatio-temporal instance queries that encode the semantic and geometric properties of each semantic tracklet in the sequence. In an in-depth study, we find that promoting spatially compact instance predictions is critical as spatio-temporal instance queries tend to merge multiple semantically similar instances, even if they are spatially distant. To this end, we regress 6-DOF bounding box parameters from spatio-temporal instance queries, which are used as an auxiliary task to foster spatially compact predictions. Mask4Former achieves a new state-of-the-art on the SemanticKITTI test set with a score of 68.4 LSTQ.
- Abstract(参考訳): 動的環境で安全に相互作用する自律エージェントの意思決定プロセスには、時間とともに正確にインスタンスを認識および追跡することが不可欠である。
そこで本研究では,LiDAR点雲の4次元パノプティックセグメンテーションの課題に対してMask4Formerを提案する。
Mask4Formerは、セマンティックインスタンスセグメンテーションと3Dポイントクラウドのスパースシーケンスと不規則シーケンスの追跡を単一のジョイントモデルに統一する最初のトランスフォーマーベースのアプローチである。
本モデルは,確率的クラスタリングや投票に基づく中心予測といった手作りの非学習型アソシエーション戦略に頼ることなく,セマンティック・インスタンスとその時間的関連性を直接予測する。
その代わりに、Mask4Formerは、シーケンス内の各セマンティックトラックレットのセマンティックプロパティと幾何学的性質をエンコードする時空間のインスタンスクエリを導入した。
より詳細な研究では、空間的にコンパクトなインスタンス予測の促進は、空間的に離れた場合であっても、時空間的なインスタンスクエリが複数の意味的に類似したインスタンスをマージする傾向があるため、重要となる。
この目的のために、空間的にコンパクトな予測を促進する補助タスクとして使用される時空間のインスタンスクエリから、6-DOF境界ボックスパラメータを回帰する。
Mask4Formerは68.4 LSTQのスコアでSemanticKITTIテストセットの最先端を達成している。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - 4D Panoptic Segmentation as Invariant and Equivariant Field Prediction [48.57732508537554]
我々は4次元パノプティカルセグメンテーションのための回転同変ニューラルネットワークを開発した。
その結果,同種でないモデルに比べて計算コストが低いモデルの方が精度が高いことがわかった。
本手法は,新しい最先端性能を設定し,セマンティックKITTITI 4Dパネルにおいて第1位を獲得している。
論文 参考訳(メタデータ) (2023-03-28T00:20:37Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - 4D Panoptic LiDAR Segmentation [27.677435778317054]
意味クラスと時間的に一貫性のあるインスタンスIDを3Dポイントのシーケンスに割り当てる4DパノプティカルLiDARセグメンテーションを提案する。
マルチオブジェクトトラッキングのベンチマークの最近の進歩に触発され、タスクのセマンティクスとポイントツーインスタンスの関連を分離する新しい評価指標を採用することを提案する。
論文 参考訳(メタデータ) (2021-02-24T18:56:16Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。