論文の概要: MASK4D: Mask Transformer for 4D Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2309.16133v1
- Date: Thu, 28 Sep 2023 03:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 18:06:08.487005
- Title: MASK4D: Mask Transformer for 4D Panoptic Segmentation
- Title(参考訳): MASK4D:4Dパノプティカルセグメンテーション用マスクトランス
- Authors: Kadir Yilmaz and Jonas Schult and Alexey Nekrasov and Bastian Leibe
- Abstract要約: Mask4Dは、インスタンスセグメンテーションと3次元雲のスパースシーケンスと不規則シーケンスの追跡を単一のジョイントモデルに統一する最初のトランスフォーマーベースのアプローチである。
本モデルは,手作りの非学習型アソシエーション戦略に頼ることなく,その時間的アソシエーションのセマンティックインスタンスを直接予測する。
Mask4Dは68.4 LSTQのスコアでSemanticKITTIテストセットの新たな最先端タスクを達成し、発行されたトップパフォーマンスメソッドを少なくとも4.5%改善した。
- 参考スコア(独自算出の注目度): 15.290756955482156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately perceiving and tracking instances over time is essential for the
decision-making processes of autonomous agents interacting safely in dynamic
environments. With this intention, we propose Mask4D for the challenging task
of 4D panoptic segmentation of LiDAR point clouds. Mask4D is the first
transformer-based approach unifying semantic instance segmentation and tracking
of sparse and irregular sequences of 3D point clouds into a single joint model.
Our model directly predicts semantic instances and their temporal associations
without relying on any hand-crafted non-learned association strategies such as
probabilistic clustering or voting-based center prediction. Instead, Mask4D
introduces spatio-temporal instance queries which encode the semantic and
geometric properties of each semantic tracklet in the sequence. In an in-depth
study, we find that it is critical to promote spatially compact instance
predictions as spatio-temporal instance queries tend to merge multiple
semantically similar instances, even if they are spatially distant. To this
end, we regress 6-DOF bounding box parameters from spatio-temporal instance
queries, which is used as an auxiliary task to foster spatially compact
predictions. Mask4D achieves a new state-of-the-art on the SemanticKITTI test
set with a score of 68.4 LSTQ, improving upon published top-performing methods
by at least +4.5%.
- Abstract(参考訳): 動的環境で安全に相互作用する自律エージェントの意思決定プロセスには,時間とともに正確なインスタンスの認識と追跡が不可欠である。
そこで本研究では,LiDAR点雲の4次元パノプティックセグメンテーションの課題に対してMask4Dを提案する。
Mask4Dは、セマンティックインスタンスのセグメンテーションと、スパースと不規則な3Dポイント雲の追跡を単一のジョイントモデルに統一する最初のトランスフォーマーベースのアプローチである。
本モデルは,確率的クラスタリングや投票に基づく中心予測など,手作りの非学習型アソシエーション戦略に頼ることなく,セマンティック・インスタンスとその時間的関連を直接予測する。
mask4dは時空間的インスタンスクエリを導入し、シーケンス内の各意味トラックレットの意味的および幾何学的性質をエンコードする。
より詳細な研究では,空間的に離れた場合でも,時空間のインスタンスクエリが複数の意味的に類似したインスタンスをマージする傾向があるため,空間的にコンパクトなインスタンス予測を促進することが重要である。
この目的のために,空間的コンパクトな予測を促す補助タスクとして使用される時空間インスタンスクエリから,6-dofバウンディングボックスパラメータを回帰する。
mask4dはsemantickittiテストセットで68.4 lstqの新たな最先端を達成し、公開されたトップパフォーマンスメソッドを少なくとも+4.5%改善した。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - 4D Panoptic Segmentation as Invariant and Equivariant Field Prediction [48.57732508537554]
我々は4次元パノプティカルセグメンテーションのための回転同変ニューラルネットワークを開発した。
その結果,同種でないモデルに比べて計算コストが低いモデルの方が精度が高いことがわかった。
本手法は,新しい最先端性能を設定し,セマンティックKITTITI 4Dパネルにおいて第1位を獲得している。
論文 参考訳(メタデータ) (2023-03-28T00:20:37Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - 4D Panoptic LiDAR Segmentation [27.677435778317054]
意味クラスと時間的に一貫性のあるインスタンスIDを3Dポイントのシーケンスに割り当てる4DパノプティカルLiDARセグメンテーションを提案する。
マルチオブジェクトトラッキングのベンチマークの最近の進歩に触発され、タスクのセマンティクスとポイントツーインスタンスの関連を分離する新しい評価指標を採用することを提案する。
論文 参考訳(メタデータ) (2021-02-24T18:56:16Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。