論文の概要: INT: Towards Infinite-frames 3D Detection with An Efficient Framework
- arxiv url: http://arxiv.org/abs/2209.15215v1
- Date: Fri, 30 Sep 2022 04:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:42:59.185459
- Title: INT: Towards Infinite-frames 3D Detection with An Efficient Framework
- Title(参考訳): INT:効率的なフレームワークによる無限フレーム3D検出を目指して
- Authors: Jianyun Xu, Zhenwei Miao, Da Zhang, Hongyu Pan, Kaixuan Liu, Peihan
Hao, Jun Zhu, Zhengyang Sun, Hongmin Li, and Xin Zhan
- Abstract要約: 連続的なストリームのために、シングルフレームの3D検出器の代わりにマルチフレームを構築するのは自然なことです。
従来のマルチフレームの研究では、計算とメモリのコストが劇的に増加したため、システムを構築するのに非常に限られたフレームしか使われていなかった。
本稿では,単一フレーム検出器と同じ計算量を維持しつつ,無限のフレームを使用できる新しいオンストリームトレーニングおよび予測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.1909600450762
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is natural to construct a multi-frame instead of a single-frame 3D
detector for a continuous-time stream. Although increasing the number of frames
might improve performance, previous multi-frame studies only used very limited
frames to build their systems due to the dramatically increased computational
and memory cost. To address these issues, we propose a novel on-stream training
and prediction framework that, in theory, can employ an infinite number of
frames while keeping the same amount of computation as a single-frame detector.
This infinite framework (INT), which can be used with most existing detectors,
is utilized, for example, on the popular CenterPoint, with significant latency
reductions and performance improvements. We've also conducted extensive
experiments on two large-scale datasets, nuScenes and Waymo Open Dataset, to
demonstrate the scheme's effectiveness and efficiency. By employing INT on
CenterPoint, we can get around 7% (Waymo) and 15% (nuScenes) performance boost
with only 2~4ms latency overhead, and currently SOTA on the Waymo 3D Detection
leaderboard.
- Abstract(参考訳): 連続時間ストリーム用のシングルフレーム3d検出器の代わりにマルチフレームを構築するのは自然である。
フレーム数を増やすことで性能が向上する可能性があるが、以前のマルチフレーム研究では計算コストとメモリコストが劇的に増加するため、システム構築に非常に限られたフレームしか使用していなかった。
これらの問題に対処するために,理論上は,単一フレーム検出器と同じ計算量を維持しながら無限のフレームを使用できる,新しいオンストリームトレーニングおよび予測フレームワークを提案する。
この無限フレームワーク(int)は、既存のほとんどの検出器で使用できるが、例えば、人気のあるセンターポイントで活用され、大幅なレイテンシ削減とパフォーマンス向上が図られている。
我々はまた、このスキームの有効性と効率を実証するために、2つの大規模なデータセットであるnuScenesとWaymo Open Datasetについて広範な実験を行った。
CenterPointにINTを採用することで、約7%(Waymo)と15%(nuScenes)のパフォーマンスが向上し、レイテンシはわずか2~4msで、現在はWaymo 3D DetectionのリーダボードでSOTAされています。
関連論文リスト
- fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence [50.417261057533786]
fVDBは、大規模な3Dデータのディープラーニングのための新しいフレームワークである。
私たちのフレームワークは、既存のパイプラインとの相互運用性を可能にするPyTorchと完全に統合されています。
論文 参考訳(メタデータ) (2024-07-01T20:20:33Z) - STTracker: Spatio-Temporal Tracker for 3D Single Object Tracking [11.901758708579642]
ポイントクラウドによる3Dオブジェクトのトラッキングは、3Dコンピュータビジョンにおいて重要なタスクである。
以前の方法は、通常、最後の2つのフレームを入力し、前のフレームのテンプレートポイントクラウドと現在のフレームの検索エリアポイントクラウドを使用する。
論文 参考訳(メタデータ) (2023-06-30T07:25:11Z) - MSF: Motion-guided Sequential Fusion for Efficient 3D Object Detection
from Point Cloud Sequences [21.50329070835023]
ポイントクラウドシーケンスは、自律運転のようなアプリケーションにおける3Dオブジェクトを正確に検出するために一般的に使用される。
このフレームワークはシーケンスの各フレームから特徴を抽出し、それらを融合して現在のフレーム内のオブジェクトを検出する。
本研究では,現在のフレームにおけるオブジェクト検出に有用な逐次コンテキストをマイニングするために,オブジェクトの動きの連続性を利用した効率的な動作誘導逐次融合(MSF)法を提案する。
論文 参考訳(メタデータ) (2023-03-15T02:10:27Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Look More but Care Less in Video Recognition [57.96505328398205]
アクション認識法は通常、巨大な計算を避けるために、各ビデオを表すためにいくつかのフレームをサンプリングする。
本稿では,より多くのフレームを利用するために2つのブランチで構成されるAmple and Focal Network (AFNet)を提案する。
論文 参考訳(メタデータ) (2022-11-18T02:39:56Z) - Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D
Point Clouds [24.69116897450494]
入力点クラウド座標フレームの選択が3次元点クラウドからの操作スキルの学習にどのように影響するかを検討する。
本研究では,適応的に候補フレームを選択し,タスクに依存しない方法でそれらのメリットを融合するFrameMinersを提案する。
論文 参考訳(メタデータ) (2022-10-14T01:05:44Z) - PiFeNet: Pillar-Feature Network for Real-Time 3D Pedestrian Detection
from Point Cloud [64.12626752721766]
点雲からの歩行者検出に有効なリアルタイム3D検出器であるPiFeNetを提案する。
歩行者を検知する際の3次元物体検出フレームワークが直面する課題として, 柱の特徴の少ない点と, 点群における歩行者の占有面積の小さい点があげられる。
提案手法は,26fps/秒(FPS)で走行しながら,KITTI歩行者BEVと3Dリーダーボードで第1位にランクされ,Nuscenes検出ベンチマークの最先端性能を実現している。
論文 参考訳(メタデータ) (2021-12-31T13:41:37Z) - 3D-MAN: 3D Multi-frame Attention Network for Object Detection [22.291051951077485]
3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。
3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T03:44:22Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - Unified Multi-Modal Landmark Tracking for Tightly Coupled
Lidar-Visual-Inertial Odometry [5.131684964386192]
視覚,ライダー,慣性情報を協調的に最適化するモバイルプラットフォームのための効率的なマルチセンサ・オドメトリーシステムを提案する。
ライダー点雲から3次元線と平面原始体を抽出する新しい手法を提案する。
システムは、脚のあるロボットによる地下探査や、動的に動くハンドヘルドデバイスによる屋外スキャンなど、さまざまなプラットフォームやシナリオでテストされてきた。
論文 参考訳(メタデータ) (2020-11-13T09:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。