論文の概要: LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory
Alignment
- arxiv url: http://arxiv.org/abs/2103.02263v1
- Date: Wed, 3 Mar 2021 09:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 15:00:57.009019
- Title: LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory
Alignment
- Title(参考訳): 時間記憶アライメントを用いたLiDARに基づく繰り返し3次元セマンティックセグメンテーション
- Authors: Fabian Duerr, Mario Pfaller, Hendrik Weigel, Juergen Beyerer
- Abstract要約: 本稿では,単一範囲の画像フレームを入力とする再帰セグメンテーションアーキテクチャ(RNN)を提案する。
私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。
2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and interpreting a 3d environment is a key challenge for
autonomous vehicles. Semantic segmentation of 3d point clouds combines 3d
information with semantics and thereby provides a valuable contribution to this
task. In many real-world applications, point clouds are generated by lidar
sensors in a consecutive fashion. Working with a time series instead of single
and independent frames enables the exploitation of temporal information. We
therefore propose a recurrent segmentation architecture (RNN), which takes a
single range image frame as input and exploits recursively aggregated temporal
information. An alignment strategy, which we call Temporal Memory Alignment,
uses ego motion to temporally align the memory between consecutive frames in
feature space. A Residual Network and ConvGRU are investigated for the memory
update. We demonstrate the benefits of the presented approach on two
large-scale datasets and compare it to several stateof-the-art methods. Our
approach ranks first on the SemanticKITTI multiple scan benchmark and achieves
state-of-the-art performance on the single scan benchmark. In addition, the
evaluation shows that the exploitation of temporal information significantly
improves segmentation results compared to a single frame approach.
- Abstract(参考訳): 3D環境の理解と解釈は、自動運転車にとって重要な課題です。
3dポイントクラウドのセマンティックセグメンテーションは3d情報とセマンティックスを組み合わせることで、このタスクに貴重な貢献を提供する。
多くの現実世界のアプリケーションでは、点雲はライダーセンサーによって連続的に生成される。
単一および独立したフレームの代わりに時系列を扱うことで、時系列情報の活用が可能になります。
そこで我々は,単一の画像フレームを入力とし,再帰的に集約された時間情報を利用する再帰的セグメンテーションアーキテクチャ(rnn)を提案する。
私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。
メモリ更新のためにResidual NetworkとConvGRUを調査した。
2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
提案手法はsemantickitti multi scanベンチマークで第1位にランクインし,single scanベンチマークで最先端のパフォーマンスを実現する。
また,時間情報の利用は,単一のフレームアプローチに比べてセグメント化結果が有意に向上することを示す。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Alignment-guided Temporal Attention for Video Action Recognition [18.5171795689609]
フレームごとのアライメントは、フレーム表現間の相互情報を増大させる可能性があることを示す。
隣接フレーム間のパラメータフリーパッチレベルのアライメントで1次元の時間的注意を延長するためのアライメント誘導時間注意(ATA)を提案する。
論文 参考訳(メタデータ) (2022-09-30T23:10:47Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。