論文の概要: PointBeV: A Sparse Approach to BeV Predictions
- arxiv url: http://arxiv.org/abs/2312.00703v1
- Date: Fri, 1 Dec 2023 16:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 13:44:49.060070
- Title: PointBeV: A Sparse Approach to BeV Predictions
- Title(参考訳): PointBeV:BeV予測に対するスパースアプローチ
- Authors: Loick Chambon, Eloi Zablocki, Mickael Chen, Florent Bartoccioni,
Patrick Perez, Matthieu Cord
- Abstract要約: Bird's-eye View (BeV) の表現は、駆動アプリケーションにおけるデファクト共有スペースとして現れている。
本稿では,高密度グリッドではなく,スパースBeVセルで動作する新しいスパースBeVセグメンテーションモデルであるPointBeVを提案する。
PointBeVはトレーニングに効率的な2パス戦略を採用しており、興味のある領域にフォーカスできる。
- 参考スコア(独自算出の注目度): 44.05558566739994
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Bird's-eye View (BeV) representations have emerged as the de-facto shared
space in driving applications, offering a unified space for sensor data fusion
and supporting various downstream tasks. However, conventional models use grids
with fixed resolution and range and face computational inefficiencies due to
the uniform allocation of resources across all cells. To address this, we
propose PointBeV, a novel sparse BeV segmentation model operating on sparse BeV
cells instead of dense grids. This approach offers precise control over memory
usage, enabling the use of long temporal contexts and accommodating
memory-constrained platforms. PointBeV employs an efficient two-pass strategy
for training, enabling focused computation on regions of interest. At inference
time, it can be used with various memory/performance trade-offs and flexibly
adjusts to new specific use cases. PointBeV achieves state-of-the-art results
on the nuScenes dataset for vehicle, pedestrian, and lane segmentation,
showcasing superior performance in static and temporal settings despite being
trained solely with sparse signals. We will release our code along with two new
efficient modules used in the architecture: Sparse Feature Pulling, designed
for the effective extraction of features from images to BeV, and Submanifold
Attention, which enables efficient temporal modeling. Our code is available at
https://github.com/valeoai/PointBeV.
- Abstract(参考訳): bird's-eye view (bev)表現は、アプリケーション駆動におけるデファクト共有空間として登場し、センサーデータ融合のための統一空間を提供し、様々な下流タスクをサポートする。
しかし、従来のモデルは固定解像度と範囲を持つ格子を使い、全てのセルに一様リソースを割り当てることによる計算効率の非効率に直面する。
そこで本研究では,高密度グリッドではなく,スパースBeVセルで動作する新しいスパースBeVセグメンテーションモデルであるPointBeVを提案する。
このアプローチは、メモリ使用量を正確に制御し、長い時間的コンテキストの使用とメモリに制約されたプラットフォームへの適応を可能にする。
PointBeVはトレーニングに効率的な2パス戦略を採用しており、関心のある領域の集中的な計算を可能にしている。
推論時には、様々なメモリ/パフォーマンストレードオフで使用でき、新しい特定のユースケースに柔軟に適応できる。
PointBeVは、車両、歩行者、レーンのセグメンテーションのためのnuScenesデータセットの最先端の結果を達成し、スパース信号だけで訓練されているにもかかわらず、静的および時間的設定において優れたパフォーマンスを示す。
私たちは、アーキテクチャで使用される2つの新しい効率的なモジュールと共に、コードをリリースします。 スパース機能プル(sparse feature pulling)、イメージからbevへの効果的な機能抽出、効率的な時間モデリングを可能にするサブマニフォールドアテンション(submanifold attention)です。
私たちのコードはhttps://github.com/valeoai/pointbevで利用可能です。
関連論文リスト
- VLAD-BuFF: Burst-aware Fast Feature Aggregation for Visual Place Recognition [23.173085268845384]
本稿では,VLAD-BuFFを提案する。これは,エンドツーエンドのVPRトレーニングにおいてバースト認識機能を学ぶための,自己相似機能割引機構である。
我々は、VLAD-BuFFが新しい技術状態を設定する9つの公開データセットに対して、我々の手法をベンチマークする。
提案手法は,12倍の局所的特徴量でも高いリコールを維持できるため,リコールを伴わずに高速な特徴集約が可能となる。
論文 参考訳(メタデータ) (2024-09-28T09:44:08Z) - fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence [50.417261057533786]
fVDBは、大規模な3Dデータのディープラーニングのための新しいフレームワークである。
私たちのフレームワークは、既存のパイプラインとの相互運用性を可能にするPyTorchと完全に統合されています。
論文 参考訳(メタデータ) (2024-07-01T20:20:33Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes [70.08318779492944]
私たちは、より効果的なセグメンテーションのために消滅点(VP)を最初に利用しました。
当社の新しいVSS用ネットワークであるVPSegには,この静的および動的VPプリエントを正確に利用する2つのモジュールが組み込まれています。
論文 参考訳(メタデータ) (2024-01-27T01:01:58Z) - BiFormer: Vision Transformer with Bi-Level Routing Attention [26.374724782056557]
本稿では,コンテンツ認識を伴う計算のより柔軟なアロケーションを実現するために,バイレベルルーティングによる新しい動的スパースアテンションを提案する。
具体的には、クエリにおいて、無関係なキー値対をまず粗い領域レベルでフィルタリングし、残った候補領域の結合にきめ細かなトークン対注意を適用する。
提案された双方向ルーティングアテンションによって構築され、BiFormerと呼ばれる新しい汎用ビジョントランスフォーマーが提示される。
論文 参考訳(メタデータ) (2023-03-15T17:58:46Z) - BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View
Images [20.30997801125592]
位置認識における異なる表現の可能性、すなわち鳥の視線(BEV)画像について検討する。
BEV画像上で訓練された単純なVGGNetは、わずかな視点変化のシーンにおける最先端の場所認識手法と同等のパフォーマンスを達成する。
そこで我々は,クエリクラウドの位置を推定し,位置認識の利用を拡大する手法を開発した。
論文 参考訳(メタデータ) (2023-02-28T05:37:45Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - A Hierarchical Dual Model of Environment- and Place-Specific Utility for
Visual Place Recognition [26.845945347572446]
視覚的位置認識(VPR)のための2つの重要なユーティリティを推定する新しい手法を提案する。
本稿では,Vactor of Locally Aggregated Descriptors(VLAD)クラスタの環境特性と場所特性の両方を推定するために,対照的な学習原理を用いる。
これら2つのユーティリティ指標を組み合わせることで、3つの挑戦的なベンチマークデータセットに対して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-07-06T07:38:47Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。