論文の概要: Multi-Scale Occ: 4th Place Solution for CVPR 2023 3D Occupancy
Prediction Challenge
- arxiv url: http://arxiv.org/abs/2306.11414v1
- Date: Tue, 20 Jun 2023 09:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:52:23.054231
- Title: Multi-Scale Occ: 4th Place Solution for CVPR 2023 3D Occupancy
Prediction Challenge
- Title(参考訳): CVPR 2023のマルチスケールOcc:第4位, 3次元稼働予測問題
- Authors: Yangyang Ding, Luying Huang, Jiachen Zhong
- Abstract要約: 本稿では,リフト・ストラップ・シューティング・フレームワークをベースとしたマルチスケールOccという簡易な手法を提案する。
リーダーボードに示すように,提案手法は49.36mIoUの4位にランクインする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present the 4th place solution for CVPR 2023 3D occupancy
prediction challenge. We propose a simple method called Multi-Scale Occ for
occupancy prediction based on lift-splat-shoot framework, which introduces
multi-scale image features for generating better multi-scale 3D voxel features
with temporal fusion of multiple past frames. Post-processing including model
ensemble, test-time augmentation, and class-wise thresh are adopted to further
boost the final performance. As shown on the leaderboard, our proposed
occupancy prediction method ranks the 4th place with 49.36 mIoU.
- Abstract(参考訳): 本稿では,CVPR 2023の3D占有率予測問題に対する第4位ソリューションを提案する。
本稿では,複数フレームの時間融合により,より優れたマルチスケール3Dボクセル特徴を生成するためのマルチスケール画像特徴を導入する,リフト・スパッチ・シューティング・フレームワークに基づく占有予測のためのマルチスケールOccという簡単な手法を提案する。
モデルアンサンブル、テスト時間拡張、クラスワイズthreshを含む後処理が採用され、最終的なパフォーマンスがさらに向上する。
リーダーボードに示すように,提案手法は49.36mIoUの4位にランクインする。
関連論文リスト
- Ensemble of ConvNeXt V2 and MaxViT for Long-Tailed CXR Classification with View-Based Aggregation [0.13154296174423616]
我々は,MICCAI 2024 CXR-LTチャレンジのソリューションを提案し,Subtask 2と5で4位,Subtask 1では5位となった。
胸部X線データセットを用いて事前訓練したConvNeXt V2およびMaxViTモデルのアンサンブルを用いて,胸部所見の長期分布に対処した。
論文 参考訳(メタデータ) (2024-10-14T16:49:14Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in
Autonomous Driving Applications [21.346206141059156]
Cam4DOccは、カメラのみの4D占有率予測のための新しいベンチマークで、近い将来、周囲の変化を評価する。
私たちは、nuScenes、nuScenes-Occupancy、Lyft-Level5など、複数の公開データセットに基づいて、ベンチマークを構築しています。
このベンチマークを総合的な比較による将来の研究のために確立するために、様々なカメラベースの認識と予測の実装から4つのベースラインタイプを導入する。
論文 参考訳(メタデータ) (2023-11-29T14:25:46Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - FB-OCC: 3D Occupancy Prediction based on Forward-Backward View
Transformation [79.41536932037822]
FB-BEVは前方投影を用いた近縁カメラを用いた鳥眼視知覚設計である。
設計と最適化の結果、最先端のmIoUスコアはnuScenesデータセットで54.19%となり、チャレンジトラックで1位となった。
論文 参考訳(メタデータ) (2023-07-04T05:55:54Z) - 4D-StOP: Panoptic Segmentation of 4D LiDAR using Spatio-temporal Object
Proposal Generation and Aggregation [21.95468697806962]
我々は4DパノプティカルLiDARの課題に取り組むために、4D-StOPと呼ばれる新しいパラダイムを提案する。
4D-StOPは投票に基づく中心予測を用いて提案を生成する。
トラックレットアグリゲーション法は、時空ボリューム全体にわたって映像レベル4Dシーン表現を効果的に生成する。
論文 参考訳(メタデータ) (2022-09-29T15:22:21Z) - BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection [14.11339105810819]
BEVDet4Dは空間のみの3次元空間から時空間の4次元空間へ拡張性のあるBEVDetパラダイムを持ち上げるために提案されている。
我々は,BEVDet4Dに頑健な一般化性能を持たせるエゴモーションと時間の要因を除去し,速度学習タスクを簡素化する。
課題ベンチマークnuScenesでは,BEVDet4D-Baseと呼ばれる高性能な構成で51.5% NDSを記録した。
論文 参考訳(メタデータ) (2022-03-31T14:21:19Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。