Fugu-MT 論文翻訳(概要): LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory Alignment

論文の概要: LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory Alignment

arxiv url: http://arxiv.org/abs/2103.02263v1
Date: Wed, 3 Mar 2021 09:01:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-04 15:00:57.009019
Title: LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory Alignment
Title（参考訳）: 時間記憶アライメントを用いたLiDARに基づく繰り返し3次元セマンティックセグメンテーション
Authors: Fabian Duerr, Mario Pfaller, Hendrik Weigel, Juergen Beyerer
Abstract要約: 本稿では,単一範囲の画像フレームを入力とする再帰セグメンテーションアーキテクチャ(RNN)を提案する。私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。 2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding and interpreting a 3d environment is a key challenge for autonomous vehicles. Semantic segmentation of 3d point clouds combines 3d information with semantics and thereby provides a valuable contribution to this task. In many real-world applications, point clouds are generated by lidar sensors in a consecutive fashion. Working with a time series instead of single and independent frames enables the exploitation of temporal information. We therefore propose a recurrent segmentation architecture (RNN), which takes a single range image frame as input and exploits recursively aggregated temporal information. An alignment strategy, which we call Temporal Memory Alignment, uses ego motion to temporally align the memory between consecutive frames in feature space. A Residual Network and ConvGRU are investigated for the memory update. We demonstrate the benefits of the presented approach on two large-scale datasets and compare it to several stateof-the-art methods. Our approach ranks first on the SemanticKITTI multiple scan benchmark and achieves state-of-the-art performance on the single scan benchmark. In addition, the evaluation shows that the exploitation of temporal information significantly improves segmentation results compared to a single frame approach.
Abstract（参考訳）: 3D環境の理解と解釈は、自動運転車にとって重要な課題です。 3dポイントクラウドのセマンティックセグメンテーションは3d情報とセマンティックスを組み合わせることで、このタスクに貴重な貢献を提供する。多くの現実世界のアプリケーションでは、点雲はライダーセンサーによって連続的に生成される。単一および独立したフレームの代わりに時系列を扱うことで、時系列情報の活用が可能になります。そこで我々は,単一の画像フレームを入力とし,再帰的に集約された時間情報を利用する再帰的セグメンテーションアーキテクチャ(rnn)を提案する。私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。メモリ更新のためにResidual NetworkとConvGRUを調査した。 2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。提案手法はsemantickitti multi scanベンチマークで第1位にランクインし,single scanベンチマークで最先端のパフォーマンスを実現する。また,時間情報の利用は,単一のフレームアプローチに比べてセグメント化結果が有意に向上することを示す。

関連論文リスト

Efficient Event-Based Semantic Segmentation via Exploiting Frame-Event Fusion: A Hybrid Neural Network Approach [13.681130802391223]
イベントカメラは、その高時間分解能とその他の有利な性質により、画像セマンティックセグメンテーションに導入されている。本稿では、イベントのためのスパイキングネットワークブランチと、フレームのためのニューラルネットワークブランチからなる、画像セマンティックセグメンテーションのための効率的なハイブリッドフレームワークを提案する。具体的には,これら2つのブランチ間の相互作用を促進するために,Adaptive Temporal Weighting (ATW), Event-Driven Sparse (EDS), Channel Selection Fusion (CSF)モジュールの3つの特別なモジュールを紹介する。
論文参考訳（メタデータ） (2025-07-04T18:30:28Z)
TSDASeg: A Two-Stage Model with Direct Alignment for Interactive Point Cloud Segmentation [3.615396917221689]
本稿では,双方向アライメントモジュールとメモリモジュールを組み合わせた2段階モデルであるTSDASegを提案する。直交アライメントモジュールを導入し、3次元点雲とテキスト/2次元画像データとの明確なアライメントを確立する。メモリモジュール内では、複数の専用メモリバンクを使用して、テキストの特徴、視覚的特徴、およびそれらの相互モーダル対応マッピングを別々に格納する。
論文参考訳（メタデータ） (2025-06-26T04:10:33Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文参考訳（メタデータ） (2023-06-06T05:24:15Z)
Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T02:58:27Z)
3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文参考訳（メタデータ） (2022-11-01T20:59:38Z)
Alignment-guided Temporal Attention for Video Action Recognition [18.5171795689609]
フレームごとのアライメントは、フレーム表現間の相互情報を増大させる可能性があることを示す。隣接フレーム間のパラメータフリーパッチレベルのアライメントで1次元の時間的注意を延長するためのアライメント誘導時間注意(ATA)を提案する。
論文参考訳（メタデータ） (2022-09-30T23:10:47Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)
Efficient Global-Local Memory for Real-time Instrument Segmentation of Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文参考訳（メタデータ） (2021-09-28T10:10:14Z)
Learning Spatio-Appearance Memory Network for High-Performance Visual Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-09-21T08:12:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。