論文の概要: Multi-Scale Occ: 4th Place Solution for CVPR 2023 3D Occupancy
Prediction Challenge
- arxiv url: http://arxiv.org/abs/2306.11414v1
- Date: Tue, 20 Jun 2023 09:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:52:23.054231
- Title: Multi-Scale Occ: 4th Place Solution for CVPR 2023 3D Occupancy
Prediction Challenge
- Title(参考訳): CVPR 2023のマルチスケールOcc:第4位, 3次元稼働予測問題
- Authors: Yangyang Ding, Luying Huang, Jiachen Zhong
- Abstract要約: 本稿では,リフト・ストラップ・シューティング・フレームワークをベースとしたマルチスケールOccという簡易な手法を提案する。
リーダーボードに示すように,提案手法は49.36mIoUの4位にランクインする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present the 4th place solution for CVPR 2023 3D occupancy
prediction challenge. We propose a simple method called Multi-Scale Occ for
occupancy prediction based on lift-splat-shoot framework, which introduces
multi-scale image features for generating better multi-scale 3D voxel features
with temporal fusion of multiple past frames. Post-processing including model
ensemble, test-time augmentation, and class-wise thresh are adopted to further
boost the final performance. As shown on the leaderboard, our proposed
occupancy prediction method ranks the 4th place with 49.36 mIoU.
- Abstract(参考訳): 本稿では,CVPR 2023の3D占有率予測問題に対する第4位ソリューションを提案する。
本稿では,複数フレームの時間融合により,より優れたマルチスケール3Dボクセル特徴を生成するためのマルチスケール画像特徴を導入する,リフト・スパッチ・シューティング・フレームワークに基づく占有予測のためのマルチスケールOccという簡単な手法を提案する。
モデルアンサンブル、テスト時間拡張、クラスワイズthreshを含む後処理が採用され、最終的なパフォーマンスがさらに向上する。
リーダーボードに示すように,提案手法は49.36mIoUの4位にランクインする。
関連論文リスト
- MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images [102.7646120414055]
スパース多視点画像から学習した効率的なフィードフォワード3次元ガウススプラッティングモデルであるMVSplatを提案する。
最新の最先端のメソッドであるPixelSplatと比較して、我々のモデルは10倍のパラメータを減らし、2倍以上の高速なパラメータを推測する。
論文 参考訳(メタデータ) (2024-03-21T17:59:58Z) - A Vanilla Multi-Task Framework for Dense Visual Prediction Solution to
1st VCL Challenge -- Multi-Task Robustness Track [31.754017006309564]
様々な視覚認識アルゴリズムをマルチタスクモデルにシームレスに結合するUniNetというフレームワークを提案する。
具体的には,DreTR3D,Mask2Former,BinsFormerを3次元オブジェクト検出,インスタンスセグメンテーション,深さ推定タスクとして選択する。
最後のエントリーは、InternImage-Lバックボーンを備えた単一のモデルで、総合スコアは49.6である。
論文 参考訳(メタデータ) (2024-02-27T08:51:20Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in
Autonomous Driving Applications [21.346206141059156]
Cam4DOccは、カメラのみの4D占有率予測のための新しいベンチマークで、近い将来、周囲の変化を評価する。
私たちは、nuScenes、nuScenes-Occupancy、Lyft-Level5など、複数の公開データセットに基づいて、ベンチマークを構築しています。
このベンチマークを総合的な比較による将来の研究のために確立するために、様々なカメラベースの認識と予測の実装から4つのベースラインタイプを導入する。
論文 参考訳(メタデータ) (2023-11-29T14:25:46Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - FB-OCC: 3D Occupancy Prediction based on Forward-Backward View
Transformation [79.41536932037822]
FB-BEVは前方投影を用いた近縁カメラを用いた鳥眼視知覚設計である。
設計と最適化の結果、最先端のmIoUスコアはnuScenesデータセットで54.19%となり、チャレンジトラックで1位となった。
論文 参考訳(メタデータ) (2023-07-04T05:55:54Z) - 4D-StOP: Panoptic Segmentation of 4D LiDAR using Spatio-temporal Object
Proposal Generation and Aggregation [21.95468697806962]
我々は4DパノプティカルLiDARの課題に取り組むために、4D-StOPと呼ばれる新しいパラダイムを提案する。
4D-StOPは投票に基づく中心予測を用いて提案を生成する。
トラックレットアグリゲーション法は、時空ボリューム全体にわたって映像レベル4Dシーン表現を効果的に生成する。
論文 参考訳(メタデータ) (2022-09-29T15:22:21Z) - BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection [14.11339105810819]
BEVDet4Dは空間のみの3次元空間から時空間の4次元空間へ拡張性のあるBEVDetパラダイムを持ち上げるために提案されている。
我々は,BEVDet4Dに頑健な一般化性能を持たせるエゴモーションと時間の要因を除去し,速度学習タスクを簡素化する。
課題ベンチマークnuScenesでは,BEVDet4D-Baseと呼ばれる高性能な構成で51.5% NDSを記録した。
論文 参考訳(メタデータ) (2022-03-31T14:21:19Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Three Steps to Multimodal Trajectory Prediction: Modality Clustering,
Classification and Synthesis [54.249502356251085]
我々は新しい予測フレームワークと共に新しい洞察を示す。
提案手法は、社会情報や地図情報を導入することなく、最先端の作品を超える。
論文 参考訳(メタデータ) (2021-03-14T06:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。