Fugu-MT 論文翻訳(概要): Multi-Scale Occ: 4th Place Solution for CVPR 2023 3D Occupancy Prediction Challenge

論文の概要: Multi-Scale Occ: 4th Place Solution for CVPR 2023 3D Occupancy Prediction Challenge

arxiv url: http://arxiv.org/abs/2306.11414v1
Date: Tue, 20 Jun 2023 09:50:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 14:52:23.054231
Title: Multi-Scale Occ: 4th Place Solution for CVPR 2023 3D Occupancy Prediction Challenge
Title（参考訳）: CVPR 2023のマルチスケールOcc:第4位, 3次元稼働予測問題
Authors: Yangyang Ding, Luying Huang, Jiachen Zhong
Abstract要約: 本稿では,リフト・ストラップ・シューティング・フレームワークをベースとしたマルチスケールOccという簡易な手法を提案する。リーダーボードに示すように,提案手法は49.36mIoUの4位にランクインする。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this report, we present the 4th place solution for CVPR 2023 3D occupancy prediction challenge. We propose a simple method called Multi-Scale Occ for occupancy prediction based on lift-splat-shoot framework, which introduces multi-scale image features for generating better multi-scale 3D voxel features with temporal fusion of multiple past frames. Post-processing including model ensemble, test-time augmentation, and class-wise thresh are adopted to further boost the final performance. As shown on the leaderboard, our proposed occupancy prediction method ranks the 4th place with 49.36 mIoU.
Abstract（参考訳）: 本稿では,CVPR 2023の3D占有率予測問題に対する第4位ソリューションを提案する。本稿では,複数フレームの時間融合により,より優れたマルチスケール3Dボクセル特徴を生成するためのマルチスケール画像特徴を導入する,リフト・スパッチ・シューティング・フレームワークに基づく占有予測のためのマルチスケールOccという簡単な手法を提案する。モデルアンサンブル、テスト時間拡張、クラスワイズthreshを含む後処理が採用され、最終的なパフォーマンスがさらに向上する。リーダーボードに示すように,提案手法は49.36mIoUの4位にランクインする。

関連論文リスト

CVFusion: Cross-View Fusion of 4D Radar and Camera for 3D Object Detection [11.109888378081187]
本稿では,CVFusionと呼ばれる2段階間核融合ネットワークを提案する。第1段階では、高リコール3D提案ボックスを生成するために、レーダ誘導反復(RGIter)BEV融合モジュールを設計する。第2段階では、各提案のポイント、イメージ、BEVを含む複数の異種ビューから特徴を集約する。提案手法は,ビュー・オブ・デルフト(VoD)とTJ4DRadSetでそれぞれ9.10%,3.68%のmAP改善を達成し,従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-07-07T00:45:53Z)
Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception [9.76463525667238]
マルチビューカメラと4Dレーダを融合した最初のフレームワークであるDoracamomを提案する。コードとモデルは公開されます。
論文参考訳（メタデータ） (2025-01-26T04:24:07Z)
MotionMap: Representing Multimodality in Human Pose Forecasting [98.26350593416674]
タスクを適切に配置するための代替パラダイムを提案する。最先端の手法はマルチモーダリティを予測するが、これは大量の予測をオーバーサンプリングする必要がある。マルチモーダリティのためのシンプルなヒートマップベースの表現であるMotionMapを用いて,これらの問題に対処する。
論文参考訳（メタデータ） (2024-12-25T11:47:26Z)
Ensemble of ConvNeXt V2 and MaxViT for Long-Tailed CXR Classification with View-Based Aggregation [0.13154296174423616]
我々は,MICCAI 2024 CXR-LTチャレンジのソリューションを提案し,Subtask 2と5で4位,Subtask 1では5位となった。胸部X線データセットを用いて事前訓練したConvNeXt V2およびMaxViTモデルのアンサンブルを用いて,胸部所見の長期分布に対処した。
論文参考訳（メタデータ） (2024-10-14T16:49:14Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文参考訳（メタデータ） (2024-07-01T16:32:15Z)
OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文参考訳（メタデータ） (2023-12-14T18:58:52Z)
Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications [21.346206141059156]
Cam4DOccは、カメラのみの4D占有率予測のための新しいベンチマークで、近い将来、周囲の変化を評価する。私たちは、nuScenes、nuScenes-Occupancy、Lyft-Level5など、複数の公開データセットに基づいて、ベンチマークを構築しています。このベンチマークを総合的な比較による将来の研究のために確立するために、様々なカメラベースの認識と予測の実装から4つのベースラインタイプを導入する。
論文参考訳（メタデータ） (2023-11-29T14:25:46Z)
Coordinate Transformer: Achieving Single-stage Multi-person Mesh Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。 3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文参考訳（メタデータ） (2023-08-20T18:23:07Z)
FB-OCC: 3D Occupancy Prediction based on Forward-Backward View Transformation [79.41536932037822]
FB-BEVは前方投影を用いた近縁カメラを用いた鳥眼視知覚設計である。設計と最適化の結果、最先端のmIoUスコアはnuScenesデータセットで54.19%となり、チャレンジトラックで1位となった。
論文参考訳（メタデータ） (2023-07-04T05:55:54Z)
4D-StOP: Panoptic Segmentation of 4D LiDAR using Spatio-temporal Object Proposal Generation and Aggregation [21.95468697806962]
我々は4DパノプティカルLiDARの課題に取り組むために、4D-StOPと呼ばれる新しいパラダイムを提案する。 4D-StOPは投票に基づく中心予測を用いて提案を生成する。トラックレットアグリゲーション法は、時空ボリューム全体にわたって映像レベル4Dシーン表現を効果的に生成する。
論文参考訳（メタデータ） (2022-09-29T15:22:21Z)
BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection [14.11339105810819]
BEVDet4Dは空間のみの3次元空間から時空間の4次元空間へ拡張性のあるBEVDetパラダイムを持ち上げるために提案されている。我々は,BEVDet4Dに頑健な一般化性能を持たせるエゴモーションと時間の要因を除去し,速度学習タスクを簡素化する。課題ベンチマークnuScenesでは,BEVDet4D-Baseと呼ばれる高性能な構成で51.5% NDSを記録した。
論文参考訳（メタデータ） (2022-03-31T14:21:19Z)
Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。 MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-07T13:09:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。