Fugu-MT 論文翻訳(概要): MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model

論文の概要: MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model

arxiv url: http://arxiv.org/abs/2404.12794v1
Date: Fri, 19 Apr 2024 11:17:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 15:16:46.783731
Title: MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model
Title（参考訳）: MambaMOS:動き認識状態空間モデルによるLiDARによる3次元移動物体のセグメンテーション
Authors: Kang Zeng, Hao Shi, Jiacheng Lin, Siyu Li, Jintao Cheng, Kaiwei Wang, Zhiyong Li, Kailun Yang,
Abstract要約: MambaMOSと呼ばれる動き認識状態空間モデルを用いた新しいLiDARベースの3D移動物体を提案する。我々は,点雲における時間・空間情報の結合性を高めるため,新しい埋め込みモジュールであるTime Clue Bootstrapping Embedding (TCBE)を開発した。また、動作認識状態空間モデル(MSSM)を導入し、異なる時間ステップで同じ物体の時間的相関を理解する能力を持つモデルを提案する。
参考スコア（独自算出の注目度）: 15.418115686945056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LiDAR-based Moving Object Segmentation (MOS) aims to locate and segment moving objects in point clouds of the current scan using motion information from previous scans. Despite the promising results achieved by previous MOS methods, several key issues, such as the weak coupling of temporal and spatial information, still need further study. In this paper, we propose a novel LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model, termed MambaMOS. Firstly, we develop a novel embedding module, the Time Clue Bootstrapping Embedding (TCBE), to enhance the coupling of temporal and spatial information in point clouds and alleviate the issue of overlooked temporal clues. Secondly, we introduce the Motion-aware State Space Model (MSSM) to endow the model with the capacity to understand the temporal correlations of the same object across different time steps. Specifically, MSSM emphasizes the motion states of the same object at different time steps through two distinct temporal modeling and correlation steps. We utilize an improved state space model to represent these motion differences, significantly modeling the motion states. Finally, extensive experiments on the SemanticKITTI-MOS and KITTI-Road benchmarks demonstrate that the proposed MambaMOS achieves state-of-the-art performance. The source code of this work will be made publicly available at https://github.com/Terminal-K/MambaMOS.
Abstract（参考訳）: LiDARベースの移動物体分割(Motion Object Segmentation, MOS)は、現在のスキャンの点雲における移動物体の位置とセグメントを、以前のスキャンからの動き情報を用いて求めることを目的としている。従来のMOS手法による有望な結果にもかかわらず、時間的・空間的な情報の弱い結合などいくつかの重要な問題はまだ研究が必要である。本稿では,動き認識状態空間モデル(MambaMOS)を用いた新しいLiDARベースの3次元移動物体セグメンテーションを提案する。まず,新しい組込みモジュールであるTime Clue Bootstrapping Embedding (TCBE)を開発した。次に、動作認識状態空間モデル(MSSM)を導入し、異なる時間ステップで同じ物体の時間的相関を理解する能力を持つモデルを提案する。特に、MSSMは2つの異なる時間的モデリングと相関ステップを通して、同じ物体の運動状態を異なる時間ステップで強調する。我々は、これらの運動差を表すために改良された状態空間モデルを使用し、運動状態を大幅にモデル化する。最後に、SemanticKITTI-MOSとKITTI-Roadベンチマークに関する広範な実験により、提案したMambaMOSが最先端のパフォーマンスを達成することを示した。この作業のソースコードはhttps://github.com/Terminal-K/MambaMOSで公開されている。

関連論文リスト

VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文参考訳（メタデータ） (2025-03-28T09:34:11Z)
STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。 CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文参考訳（メタデータ） (2024-12-28T08:49:23Z)
Quo Vadis, Motion Generation? From Large Language Models to Large Motion Models [70.78051873517285]
我々は、最初の100万レベルのモーション生成ベンチマークであるMotionBaseを紹介する。この膨大なデータセットを活用することで、我々の大きな動きモデルは幅広い動きに対して強いパフォーマンスを示す。動作情報を保存し,コードブックの容量を拡大する,モーショントークン化のための新しい2次元ルックアップフリーアプローチを提案する。
論文参考訳（メタデータ） (2024-10-04T10:48:54Z)
Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文参考訳（メタデータ） (2024-09-06T16:29:04Z)
MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation [4.386035726986601]
3D-to-2Dプロジェクションにおける動作と意味的特徴の有効活用と情報損失の回避は依然として重要な課題である。点雲の異なる2次元表現からモーションセマンティックな特徴を融合させることにより,新しい多視点MOSモデル(MV-MOS)を提案する。提案するマルチブランチ融合MOSフレームワークの有効性を総合実験により検証した。
論文参考訳（メタデータ） (2024-08-20T07:30:00Z)
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
MF-MOS: A Motion-Focused Model for Moving Object Segmentation [10.533968185642415]
移動オブジェクトセグメンテーション(MOS)は、トラフィック参加者を検出する信頼性の高いソリューションを提供する。これまでの方法では、レンジ画像から直接動きの特徴をキャプチャする。 We propose MF-MOS, a novel motion- focused model with a dual-branch structure for LiDAR moving object segmentation。
論文参考訳（メタデータ） (2024-01-30T13:55:56Z)
Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。 3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文参考訳（メタデータ） (2023-08-22T17:53:58Z)
Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。従来の手法は手作りの機能と機械学習技術に依存している。 HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文参考訳（メタデータ） (2023-08-02T12:04:28Z)
Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文参考訳（メタデータ） (2023-04-28T23:43:10Z)
Efficient Spatial-Temporal Information Fusion for LiDAR-Based 3D Moving Object Segmentation [23.666607237164186]
本稿では,LiDAR-MOSの性能向上のために,空間時空間情報とLiDARスキャンの異なる表現モダリティを併用した新しいディープニューラルネットワークを提案する。具体的には、まず、空間情報と時間情報とを別々に扱うために、レンジ画像に基づくデュアルブランチ構造を用いる。また、3次元スパース畳み込みによるポイントリファインメントモジュールを使用して、LiDAR範囲の画像とポイントクラウド表現の両方からの情報を融合する。
論文参考訳（メタデータ） (2022-07-05T17:59:17Z)
Exploring Motion and Appearance Information for Temporal Sentence Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2022-01-03T02:44:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。