論文の概要: MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation
- arxiv url: http://arxiv.org/abs/2408.10602v1
- Date: Tue, 20 Aug 2024 07:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:54:06.880164
- Title: MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation
- Title(参考訳): MV-MOS:3次元移動物体分割のためのマルチビュー機能融合
- Authors: Jintao Cheng, Xingming Chen, Jinxin Liang, Xiaoyu Tang, Xieyuanli Chen, Dachuan Li,
- Abstract要約: 3D-to-2Dプロジェクションにおける動作と意味的特徴の有効活用と情報損失の回避は依然として重要な課題である。
点雲の異なる2次元表現からモーションセマンティックな特徴を融合させることにより,新しい多視点MOSモデル(MV-MOS)を提案する。
提案するマルチブランチ融合MOSフレームワークの有効性を総合実験により検証した。
- 参考スコア(独自算出の注目度): 4.386035726986601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively summarizing dense 3D point cloud data and extracting motion information of moving objects (moving object segmentation, MOS) is crucial to autonomous driving and robotics applications. How to effectively utilize motion and semantic features and avoid information loss during 3D-to-2D projection is still a key challenge. In this paper, we propose a novel multi-view MOS model (MV-MOS) by fusing motion-semantic features from different 2D representations of point clouds. To effectively exploit complementary information, the motion branches of the proposed model combines motion features from both bird's eye view (BEV) and range view (RV) representations. In addition, a semantic branch is introduced to provide supplementary semantic features of moving objects. Finally, a Mamba module is utilized to fuse the semantic features with motion features and provide effective guidance for the motion branches. We validated the effectiveness of the proposed multi-branch fusion MOS framework via comprehensive experiments, and our proposed model outperforms existing state-of-the-art models on the SemanticKITTI benchmark.
- Abstract(参考訳): 移動物体(移動物体セグメンテーション、MOS)の動き情報を抽出することは、自律走行やロボット工学の応用において重要である。
3D-to-2Dプロジェクションにおける動作と意味的特徴の有効活用と情報損失の回避は依然として重要な課題である。
本稿では,点雲の異なる2次元表現から動画像特徴を融合させることにより,新しい多視点MOSモデル(MV-MOS)を提案する。
補足情報を効果的に活用するために,提案モデルの運動枝は,鳥の視線(BEV)とレンジビュー(RV)の両方からの運動特徴を結合する。
さらに、動くオブジェクトの補足的な意味的特徴を提供するためにセマンティックブランチが導入された。
最後に、マンバモジュールを用いて、動作特徴と意味的特徴を融合させ、動作分岐に対して効果的なガイダンスを提供する。
提案手法の有効性を総合的な実験により検証し,提案手法はSemanticKITTIベンチマークにおいて既存の最先端モデルよりも優れていることを示す。
関連論文リスト
- CV-MOS: A Cross-View Model for Motion Segmentation [13.378850442525945]
本稿では,移動物体セグメンテーションのためのクロスビューモデルCV-MOSを紹介する。
BEV と RV の残差マップから動きを捉えることで空間時空間情報を分離する。
提案手法は,SemanticKittiデータセットの検証とテストセットにおいて,IoU(%)スコアが77.5%,79.2%に達した。
論文 参考訳(メタデータ) (2024-08-25T09:39:26Z) - ProMotion: Prototypes As Motion Learners [46.08051377180652]
本稿では,基本動作タスクをモデル化するための統一プロトタイプフレームワークであるProMotionを紹介する。
ProMotionは、現在のタスク固有のパラダイムとは別の、魅力的な属性を提供する。
我々は,特徴記述器と原型学習器を併用して,動作の複雑さを解読する2つのメカニズムを生かした。
論文 参考訳(メタデータ) (2024-06-07T15:10:33Z) - MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model [15.418115686945056]
LiDARベースの移動物体(MOS)は、前回のスキャンからの動き情報を用いて、現在のスキャンの点雲における移動物体の特定と分割を目的としている。
MambaMOSと呼ばれる動き認識状態空間モデルを用いた新しいLiDARベースの3D移動物体を提案する。
論文 参考訳(メタデータ) (2024-04-19T11:17:35Z) - MF-MOS: A Motion-Focused Model for Moving Object Segmentation [10.533968185642415]
移動オブジェクトセグメンテーション(MOS)は、トラフィック参加者を検出する信頼性の高いソリューションを提供する。
これまでの方法では、レンジ画像から直接動きの特徴をキャプチャする。
We propose MF-MOS, a novel motion- focused model with a dual-branch structure for LiDAR moving object segmentation。
論文 参考訳(メタデータ) (2024-01-30T13:55:56Z) - Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - MotionBEV: Attention-Aware Online LiDAR Moving Object Segmentation with
Bird's Eye View based Appearance and Motion Features [5.186531650935954]
我々は、LiDAR移動物体セグメンテーションのための高速かつ正確なフレームワークであるMotionBEVを紹介する。
提案手法では,3次元LiDARスキャンを2次元極性BEV表現に変換し,計算効率を向上させる。
我々は、外観・動作特徴からLiDAR時間情報を適応的に融合させるために、AMCM(Adearance-Motion Co-attention Module)でブリッジされたデュアルブランチネットワークを使用する。
論文 参考訳(メタデータ) (2023-05-12T09:28:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。