Fugu-MT 論文翻訳(概要): FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

論文の概要: FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

arxiv url: http://arxiv.org/abs/2311.12058v1
Date: Sat, 18 Nov 2023 15:28:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 03:52:51.193175
Title: FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin
Title（参考訳）: FlashOcc:Channel-to-Heightプラグインによる高速かつメモリ効率の良い実行予測
Authors: Zichen Yu, Changyong Shu, Jiajun Deng, Kangjie Lu, Zongdai Liu, Jiangyong Yu, Dawei Yang, Hui Li, Yan Chen
Abstract要約: FlashOCCは、高速かつメモリ効率の高い占有率予測を集約する。チャネル・ツー・ハイト変換は、BEVから出力ロジットを3次元空間に持ち上げるために導入された。その結果,従来の最先端手法よりもプラグ・アンド・プレイ・パラダイムが優れていることが実証された。
参考スコア（独自算出の注目度）: 32.172269679513285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given the capability of mitigating the long-tail deficiencies and intricate-shaped absence prevalent in 3D object detection, occupancy prediction has become a pivotal component in autonomous driving systems. However, the procession of three-dimensional voxel-level representations inevitably introduces large overhead in both memory and computation, obstructing the deployment of to-date occupancy prediction approaches. In contrast to the trend of making the model larger and more complicated, we argue that a desirable framework should be deployment-friendly to diverse chips while maintaining high precision. To this end, we propose a plug-and-play paradigm, namely FlashOCC, to consolidate rapid and memory-efficient occupancy prediction while maintaining high precision. Particularly, our FlashOCC makes two improvements based on the contemporary voxel-level occupancy prediction approaches. Firstly, the features are kept in the BEV, enabling the employment of efficient 2D convolutional layers for feature extraction. Secondly, a channel-to-height transformation is introduced to lift the output logits from the BEV into the 3D space. We apply the FlashOCC to diverse occupancy prediction baselines on the challenging Occ3D-nuScenes benchmarks and conduct extensive experiments to validate the effectiveness. The results substantiate the superiority of our plug-and-play paradigm over previous state-of-the-art methods in terms of precision, runtime efficiency, and memory costs, demonstrating its potential for deployment. The code will be made available.
Abstract（参考訳）: 3次元物体検出において長い尾の欠損と複雑な形状の欠如を緩和する能力を考えると、占有予測は自律運転システムにおいて重要な要素となっている。しかし、3次元voxelレベル表現の処理は、必然的にメモリと計算の両方に大きなオーバーヘッドをもたらし、最新の占有予測アプローチの展開を妨げる。モデルをより大きく、より複雑にする傾向とは対照的に、我々は、望ましいフレームワークは、高い精度を維持しつつ、多様なチップにデプロイしやすいものであるべきであると主張する。そこで本研究では,高速かつメモリ効率の高い占有率予測を高精度に行うためのプラグイン・アンド・プレイパラダイムflashoccを提案する。特に,同時代のボクセルレベルの占有率予測に基づく2つの改善を行った。まず、特徴をbevに保持し、効率的な2次元畳み込み層による特徴抽出を可能にする。次に、BEVから3次元空間に出力ロジットを持ち上げるために、チャネル対高さ変換を導入する。我々は,Occ3D-nuScenesベンチマークに基づいて,FlashOCCを多様な占有率予測基準に適用し,その有効性を検証した。その結果、従来の最先端手法よりも精度、実行効率、メモリコストの面で、プラグイン・アンド・プレイ・パラダイムの優位性を実証し、デプロイの可能性を示している。コードは利用可能になります。

関連論文リスト

Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-07-23T17:57:16Z)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。 SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-25T17:59:57Z)
TGP: Two-modal occupancy prediction with 3D Gaussian and sparse points for 3D Environment Awareness [13.68631587423815]
3Dセマンティックな占有力は、ロボット工学と自律運転環境知覚の分野において、急速に研究の焦点となっている。既存の占有予測タスクは、voxelやポイントクラウドベースのアプローチを使用してモデル化される。本稿では空間的位置と体積構造情報のバランスをとる3次元ガウス集合とスパース点に基づく2次元モーダル予測法を提案する。
論文参考訳（メタデータ） (2025-03-13T01:35:04Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
Lightweight Spatial Embedding for Vision-based 3D Occupancy Prediction [37.8001844396061]
LightOccは、軽量空間埋め込みを利用する革新的な3D占有予測フレームワークである。 LightOccはベースラインの予測精度を大幅に向上させ、Occ3D-nuScenesベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-08T15:49:35Z)
Spatiotemporal Decoupling for Efficient Vision-Based Occupancy Forecasting [18.933451243989452]
既存の3次元占有予測手法は、可動物体の空間的詳細性を予測するのに苦労する。本稿では,このバイアスに明示的に対処し,効果的な3次元OCFを実現するための新しいビジョンベースパラダイムを提案する。我々は,時間的に疎結合な表現で3次元OCFを実現するために,効率的なマルチヘッドネットワークネットワークであるEfficientOCFを開発した。
論文参考訳（メタデータ） (2024-11-21T14:27:15Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。 OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文参考訳（メタデータ） (2024-11-06T06:34:27Z)
PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T16:06:59Z)
UltimateDO: An Efficient Framework to Marry Occupancy Prediction with 3D Object Detection via Channel2height [2.975860548186652]
現代の自律運転システムでは、作業と3Dオブジェクト検出が標準的な2つのタスクである。高速な3次元物体検出と占有予測(UltimateDO)を実現する手法を提案する。
論文参考訳（メタデータ） (2024-09-17T13:14:13Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文参考訳（メタデータ） (2024-07-08T17:59:54Z)
AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文参考訳（メタデータ） (2024-07-01T16:32:15Z)
BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。 BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-26T11:16:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。