論文の概要: FrustumFormer: Adaptive Instance-aware Resampling for Multi-view 3D
Detection
- arxiv url: http://arxiv.org/abs/2301.04467v2
- Date: Fri, 24 Mar 2023 09:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:55:41.465889
- Title: FrustumFormer: Adaptive Instance-aware Resampling for Multi-view 3D
Detection
- Title(参考訳): frustumformer:マルチビュー3d検出のための適応型インスタンスアウェアリサンプリング
- Authors: Yuqi Wang, Yuntao Chen, and Zhaoxiang Zhang
- Abstract要約: 我々はFrustumFormerという新しいフレームワークを提案し、適応型インスタンス認識再サンプリングを通じてインスタンス領域の機能により多くの注意を払っている。
nuScenesデータセットの実験は、FrustumFormerの有効性を示し、ベンチマークで新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 47.6570523164125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformation of features from 2D perspective space to 3D space is
essential to multi-view 3D object detection. Recent approaches mainly focus on
the design of view transformation, either pixel-wisely lifting perspective view
features into 3D space with estimated depth or grid-wisely constructing BEV
features via 3D projection, treating all pixels or grids equally. However,
choosing what to transform is also important but has rarely been discussed
before. The pixels of a moving car are more informative than the pixels of the
sky. To fully utilize the information contained in images, the view
transformation should be able to adapt to different image regions according to
their contents. In this paper, we propose a novel framework named
FrustumFormer, which pays more attention to the features in instance regions
via adaptive instance-aware resampling. Specifically, the model obtains
instance frustums on the bird's eye view by leveraging image view object
proposals. An adaptive occupancy mask within the instance frustum is learned to
refine the instance location. Moreover, the temporal frustum intersection could
further reduce the localization uncertainty of objects. Comprehensive
experiments on the nuScenes dataset demonstrate the effectiveness of
FrustumFormer, and we achieve a new state-of-the-art performance on the
benchmark. Codes and models will be made available at
https://github.com/Robertwyq/Frustum.
- Abstract(参考訳): 2次元視点空間から3次元空間への特徴の変換は、多視点3次元オブジェクト検出に不可欠である。
近年のアプローチでは、視界を3D空間に引き上げる画素ワイジングや、3DプロジェクションによってBEV機能をグリッドワイジングで構築し、すべてのピクセルやグリッドを等しく扱うという視点変換の設計に重点を置いている。
しかし、トランスフォーメーションの選択も重要だが、これまで議論されることはめったにない。
動く車のピクセルは、空のピクセルよりも情報的です。
画像に含まれる情報を十分に活用するためには、ビュー変換はその内容に応じて異なる画像領域に適応できる必要がある。
本稿では,アダプティブ・インスタンス・アウェア・リサンプリング(adaptive instance-aware resampling)によってインスタンス領域の機能にさらに注目する,frustumformerという新しいフレームワークを提案する。
具体的には、画像ビューオブジェクトの提案を利用して、鳥の視線上のインスタンスフラストレーションを取得する。
インスタンスの場所を洗練するために、インスタンスフラスタム内のアダプティブ占有マスクが学習される。
さらに、時間的フラストタル交叉は、物体の局在不確実性をさらに減少させる可能性がある。
nuScenesデータセットに関する総合的な実験はFrustumFormerの有効性を示し、ベンチマークで新しい最先端性能を実現する。
コードとモデルはhttps://github.com/Robertwyq/Frustum.comで公開される。
関連論文リスト
- Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Scatter Points in Space: 3D Detection from Multi-view Monocular Images [8.71944437852952]
単眼画像からの3次元物体検出は,コンピュータビジョンの課題であり,長年の課題である。
近年の手法では, 空間に密集した正規3次元格子をサンプリングすることにより, マルチビュー特性を集約する傾向にある。
そこで本研究では,データ空間に擬似曲面点を散布し,データの分散性を維持するための学習可能なキーポイントサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-08-31T09:38:05Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。