論文の概要: Time Will Tell: New Outlooks and A Baseline for Temporal Multi-View 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2210.02443v1
- Date: Wed, 5 Oct 2022 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:40:13.332137
- Title: Time Will Tell: New Outlooks and A Baseline for Temporal Multi-View 3D
Object Detection
- Title(参考訳): Time Will Tell: 時間的マルチビュー3Dオブジェクト検出のための新しい展望とベースライン
- Authors: Jinhyung Park, Chenfeng Xu, Shijia Yang, Kurt Keutzer, Kris Kitani,
Masayoshi Tomizuka, Wei Zhan
- Abstract要約: 現在の3D検出法は、限られた歴史を使って物体の知覚を改善する。
我々のフレームワークは、nuScenesで新しい最先端をセットし、テストセットで1位を獲得し、検証セットで5.2%のmAPと3.7%のNDSで過去の最高のアートを上回ります。
- 参考スコア(独自算出の注目度): 63.809086864530784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent camera-only 3D detection methods leverage multiple timesteps,
the limited history they use significantly hampers the extent to which temporal
fusion can improve object perception. Observing that existing works' fusion of
multi-frame images are instances of temporal stereo matching, we find that
performance is hindered by the interplay between 1) the low granularity of
matching resolution and 2) the sub-optimal multi-view setup produced by limited
history usage. Our theoretical and empirical analysis demonstrates that the
optimal temporal difference between views varies significantly for different
pixels and depths, making it necessary to fuse many timesteps over long-term
history. Building on our investigation, we propose to generate a cost volume
from a long history of image observations, compensating for the coarse but
efficient matching resolution with a more optimal multi-view matching setup.
Further, we augment the per-frame monocular depth predictions used for
long-term, coarse matching with short-term, fine-grained matching and find that
long and short term temporal fusion are highly complementary. While maintaining
high efficiency, our framework sets new state-of-the-art on nuScenes, achieving
first place on the test set and outperforming previous best art by 5.2% mAP and
3.7% NDS on the validation set. Code will be released
$\href{https://github.com/Divadi/SOLOFusion}{here.}$
- Abstract(参考訳): 最近のカメラのみの3d検出手法は、複数の時間ステップを活用するが、それらの限られた履歴は、時間的融合が物体の知覚を改善できる範囲を著しく阻害する。
既存作品のマルチフレーム画像の融合が時間的ステレオマッチングの例であることを観察すると、パフォーマンスは相互作用によって妨げられていることが分かる。
1)一致解像度の低粒度と
2) 履歴使用が制限されたサブオプションのマルチビュー設定。
理論的および経験的分析により,ビュー間の最適な時間差は画素や深度によって大きく異なることが示され,長い歴史の中で多くの時間ステップを融合させる必要がある。
そこで本研究では,画像観察の長い歴史からコストボリュームを生成し,より最適なマルチビューマッチング設定による粗いが効率的なマッチング解像度を補償することを提案する。
さらに, フレームごとの単眼深度予測を, 短期的, きめ細かなマッチングと長期的, 粗いマッチングに用い, 長期的, 短期的な時間的融合が極めて相補的であることを示す。
高効率を維持しながら,本フレームワークはnuScenesに新たな最先端技術を設定し,テストセットで1位を獲得し,検証セットで5.2% mAP,3.7% NDSを達成した。
コードは $\href{https://github.com/Divadi/SOLOFusion}{here でリリースされる。
}$
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - M${^2}$Depth: Self-supervised Two-Frame Multi-camera Metric Depth Estimation [22.018059988585403]
M$2$Depthは、自律運転における信頼性の高いスケール認識周囲の深さを予測するように設計されている。
まず、空間領域と時間領域のコストボリュームを個別に構成する。
本研究では,空間時空間情報を統合して高音量表示を実現する空間時空間融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-05-03T11:06:37Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Multimodal Industrial Anomaly Detection by Crossmodal Feature Mapping [12.442574943138794]
本稿では、点雲とRGB画像を利用して異常をローカライズする産業用マルチモーダル異常検出(AD)タスクについて検討する。
我々は,新しい軽量かつ高速なフレームワークを導入し,特徴を1つのモダリティからもう1つのモダリティへのマップを,名目標本上で学習する。
論文 参考訳(メタデータ) (2023-12-07T18:41:21Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Exploring Recurrent Long-term Temporal Fusion for Multi-view 3D Perception [27.598461348452343]
長期的な時間融合は、カメラベースのBird-Eye-View 3D知覚において不可欠であるが、しばしば見落とされがちなテクニックである。
既存の方法はほとんどが並列である。
私たちはこのシンプルだが効果的に融合するパイプラインを VideoBEV と名付けます。
論文 参考訳(メタデータ) (2023-03-10T15:01:51Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - STS: Surround-view Temporal Stereo for Multi-view 3D Detection [28.137180365082976]
本稿では,フレーム間の幾何学的対応を利用して正確な深度学習を容易にする新しいSurround-view Temporal Stereo(STS)手法を提案する。
nuScenesの実験では、STSは特に中距離と長距離の物体の3D検出能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2022-08-22T08:46:33Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。