論文の概要: MonoATT: Online Monocular 3D Object Detection with Adaptive Token
Transformer
- arxiv url: http://arxiv.org/abs/2303.13018v1
- Date: Thu, 23 Mar 2023 03:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:40:05.994464
- Title: MonoATT: Online Monocular 3D Object Detection with Adaptive Token
Transformer
- Title(参考訳): MonoATT:Adaptive Token Transformerを用いたオンラインモノクロ3Dオブジェクト検出
- Authors: Yunsong Zhou, Hongzi Zhu, Quan Liu, Shan Chang, and Minyi Guo
- Abstract要約: 我々はMonoATTと呼ばれるオンラインMono3Dフレームワークを提案する。これは、様々な形状と大きさの異質なトークンを持つ新しいビジョントランスフォーマーを活用して、モバイルMono3Dを容易にする。
MonoATTは最先端の手法と比較して大きなマージンで最高のパフォーマンスを示し、KITTI 3Dベンチマークで第1位にランクされている。
- 参考スコア(独自算出の注目度): 20.797532618963828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile monocular 3D object detection (Mono3D) (e.g., on a vehicle, a drone,
or a robot) is an important yet challenging task. Existing transformer-based
offline Mono3D models adopt grid-based vision tokens, which is suboptimal when
using coarse tokens due to the limited available computational power. In this
paper, we propose an online Mono3D framework, called MonoATT, which leverages a
novel vision transformer with heterogeneous tokens of varying shapes and sizes
to facilitate mobile Mono3D. The core idea of MonoATT is to adaptively assign
finer tokens to areas of more significance before utilizing a transformer to
enhance Mono3D. To this end, we first use prior knowledge to design a scoring
network for selecting the most important areas of the image, and then propose a
token clustering and merging network with an attention mechanism to gradually
merge tokens around the selected areas in multiple stages. Finally, a
pixel-level feature map is reconstructed from heterogeneous tokens before
employing a SOTA Mono3D detector as the underlying detection core. Experiment
results on the real-world KITTI dataset demonstrate that MonoATT can
effectively improve the Mono3D accuracy for both near and far objects and
guarantee low latency. MonoATT yields the best performance compared with the
state-of-the-art methods by a large margin and is ranked number one on the
KITTI 3D benchmark.
- Abstract(参考訳): 移動式モノクロ3Dオブジェクト検出(例えば、車両、ドローン、ロボット)は、重要な課題でありながら難しい課題である。
既存のtransformerベースのオフラインmono3dモデルでは、グリッドベースのビジョントークンが採用されている。
本稿では,様々な形状や大きさの異質なトークンを持つ新しい視覚変換器を利用して,移動型Mono3Dを実現するMonoATTというオンラインMono3Dフレームワークを提案する。
monoattの中核となる考え方は、mono3dを強化するトランスフォーマーを利用する前に、より重要な領域により細かいトークンを適応的に割り当てることである。
この目的のために、まず画像の最も重要な領域を選択するためのスコアリングネットワークを設計し、次に、注目機構を備えたトークンクラスタリングとマージネットワークを提案し、選択された領域のトークンを複数の段階で徐々にマージする。
最後に、SOTA Mono3D検出器を基礎となる検出コアとして使用する前に、画素レベルの特徴マップを異種トークンから再構成する。
実世界のKITTIデータセットの実験結果は、MonoATTが近距離オブジェクトと遠距離オブジェクトのMono3D精度を効果的に改善し、低レイテンシを保証できることを示した。
MonoATTは最先端の手法と比較して大きなマージンで最高のパフォーマンスを示し、KITTI 3Dベンチマークで第1位にランクされている。
関連論文リスト
- MonoNext: A 3D Monocular Object Detection with ConvNext [69.33657875725747]
本稿では3次元物体検出のためのMonoNextと呼ばれる新しいマルチタスク学習手法を提案する。
MonoNextは、ConvNextネットワークに基づく直接的なアプローチを採用し、3Dバウンディングボックスデータのみを必要とする。
KITTIデータセットを用いた実験では,MonoNextは最先端のアプローチに匹敵する高精度かつ競争的な性能を達成した。
論文 参考訳(メタデータ) (2023-08-01T15:15:40Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Learning Auxiliary Monocular Contexts Helps Monocular 3D Object
Detection [15.185462008629848]
モノクロ3Dオブジェクト検出は、入力された単一2D画像内の3Dバウンディングボックスをローカライズすることを目的としている。
本稿では, 余分な情報を活用することなく, 単分子物体検出のための簡易かつ効果的な定式化法を提案する。
モノラルな3Dオブジェクト検出を支援するために、トレーニングの補助タスクとしてモノラルなコンテキストを学習するMonoConメソッドを提案する。
論文 参考訳(メタデータ) (2021-12-09T00:05:34Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。