論文の概要: StreamMOS: Streaming Moving Object Segmentation with Multi-View Perception and Dual-Span Memory
- arxiv url: http://arxiv.org/abs/2407.17905v1
- Date: Thu, 25 Jul 2024 09:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:28:24.832443
- Title: StreamMOS: Streaming Moving Object Segmentation with Multi-View Perception and Dual-Span Memory
- Title(参考訳): StreamMOS: マルチビューパーセプションとデュアルスパンメモリによる移動オブジェクトセグメンテーションのストリーミング
- Authors: Zhiheng Li, Yubo Cui, Jiexi Zhong, Zheng Fang,
- Abstract要約: 本稿では,複数の推論における特徴と予測の関連性を構築するために,StreamMOSと呼ばれるメモリ機構を備えたストリーミングネットワークを提案する。
具体的には、移動物体に先立って空間的と考えられる歴史的特徴を伝えるために、短期記憶を利用する。
また、投影と非対称畳み込みを備えた多視点エンコーダを提案し、異なる表現で物体の運動特徴を抽出する。
- 参考スコア(独自算出の注目度): 21.300636683882338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moving object segmentation based on LiDAR is a crucial and challenging task for autonomous driving and mobile robotics. Most approaches explore spatio-temporal information from LiDAR sequences to predict moving objects in the current frame. However, they often focus on transferring temporal cues in a single inference and regard every prediction as independent of others. This may cause inconsistent segmentation results for the same object in different frames. To overcome this issue, we propose a streaming network with a memory mechanism, called StreamMOS, to build the association of features and predictions among multiple inferences. Specifically, we utilize a short-term memory to convey historical features, which can be regarded as spatial prior of moving objects and adopted to enhance current inference by temporal fusion. Meanwhile, we build a long-term memory to store previous predictions and exploit them to refine the present forecast at voxel and instance levels through voting. Besides, we present multi-view encoder with cascade projection and asymmetric convolution to extract motion feature of objects in different representations. Extensive experiments validate that our algorithm gets competitive performance on SemanticKITTI and Sipailou Campus datasets. Code will be released at https://github.com/NEU-REAL/StreamMOS.git.
- Abstract(参考訳): LiDARをベースとしたオブジェクトセグメンテーションの移動は、自動運転とモバイルロボティクスにとって重要な課題である。
ほとんどのアプローチでは、現在のフレーム内の移動物体を予測するために、LiDARシーケンスから時空間情報を探索する。
しかし、彼らはしばしば1つの推論で時間的手がかりを転送することに集中し、全ての予測を他の予測とは独立していると見なす。
これは異なるフレーム内の同じオブジェクトに対して矛盾したセグメンテーション結果を引き起こす可能性がある。
この問題を克服するために,複数の推論における特徴と予測の関連性を構築するために,StreamMOSと呼ばれるメモリ機構を備えたストリーミングネットワークを提案する。
具体的には,移動物体の空間的先行とみなすことができ,時間的融合による電流推定を高めるために,短期記憶を用いて歴史的特徴を伝達する。
一方、我々は、過去の予測を保存し、それらを活用して、投票によるボクセルやインスタンスレベルでの現在の予測を洗練します。
さらに,様々な表現で物体の運動特徴を抽出するために,カスケードプロジェクションと非対称畳み込みを備えた多視点エンコーダを提案する。
大規模な実験により,SemanticKITTIおよびSipailou Campusデータセット上での競合性能が検証された。
コードはhttps://github.com/NEU-REAL/StreamMOS.gitでリリースされる。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Learning Temporal Cues by Predicting Objects Move for Multi-camera 3D Object Detection [9.053936905556204]
本稿では,2分岐ネットワークからなるDAP (Detection After Prediction) モデルを提案する。
分岐(i)から現在のオブジェクトを予測する特徴は、予測知識を伝達するために分岐(ii)に融合される。
私たちのモデルはプラグイン・アンド・プレイで使用することができ、一貫したパフォーマンス向上を示します。
論文 参考訳(メタデータ) (2024-04-02T02:20:47Z) - Motion-to-Matching: A Mixed Paradigm for 3D Single Object Tracking [27.805298263103495]
本稿では,モーションモデリングと特徴マッチングを組み合わせたMTM-Trackerを提案する。
第1段階では、連続した履歴ボックスを先行動作として利用し、ターゲットの粗い位置を特定するエンコーダ・デコーダ構造を提案する。
第2段階では、連続する点雲から動きを認識する特徴を抽出し、それらをマッチングして目標運動を洗練させる特徴相互作用モジュールを導入する。
論文 参考訳(メタデータ) (2023-08-23T02:40:51Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文 参考訳(メタデータ) (2020-06-09T21:28:17Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。