論文の概要: FastBEV++: Fast by Algorithm, Deployable by Design
- arxiv url: http://arxiv.org/abs/2512.08237v1
- Date: Tue, 09 Dec 2025 04:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.809287
- Title: FastBEV++: Fast by Algorithm, Deployable by Design
- Title(参考訳): FastBEV++: アルゴリズムによる高速化、設計によるデプロイ
- Authors: Yuanpeng Chen, Hui Song, Wei Tao, ShanHui Mo, Shuang Zhang, Xiao Hua, TianKun Zhao,
- Abstract要約: 本稿では,最新のパフォーマンスと車載デプロイメントのトラクタビリティを両立させるフレームワークであるFastBEV++を紹介する。
モノリシックなプロジェクションを標準のIndex-Gather-Reshapeパイプラインに分解する新しいビューパラダイムを通じて、"Deployable by Design"の原則を実現する。
- 参考スコア(独自算出の注目度): 5.339716421285263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of camera-only Bird's-Eye-View(BEV) perception is currently impeded by a fundamental tension between state-of-the-art performance and on-vehicle deployment tractability. This bottleneck stems from a deep-rooted dependency on computationally prohibitive view transformations and bespoke, platform-specific kernels. This paper introduces FastBEV++, a framework engineered to reconcile this tension, demonstrating that high performance and deployment efficiency can be achieved in unison via two guiding principles: Fast by Algorithm and Deployable by Design. We realize the "Deployable by Design" principle through a novel view transformation paradigm that decomposes the monolithic projection into a standard Index-Gather-Reshape pipeline. Enabled by a deterministic pre-sorting strategy, this transformation is executed entirely with elementary, operator native primitives (e.g Gather, Matrix Multiplication), which eliminates the need for specialized CUDA kernels and ensures fully TensorRT-native portability. Concurrently, our framework is "Fast by Algorithm", leveraging this decomposed structure to seamlessly integrate an end-to-end, depth-aware fusion mechanism. This jointly learned depth modulation, further bolstered by temporal aggregation and robust data augmentation, significantly enhances the geometric fidelity of the BEV representation.Empirical validation on the nuScenes benchmark corroborates the efficacy of our approach. FastBEV++ establishes a new state-of-the-art 0.359 NDS while maintaining exceptional real-time performance, exceeding 134 FPS on automotive-grade hardware (e.g Tesla T4). By offering a solution that is free of custom plugins yet highly accurate, FastBEV++ presents a mature and scalable design philosophy for production autonomous systems. The code is released at: https://github.com/ymlab/advanced-fastbev
- Abstract(参考訳): カメラのみのBird's-Eye-View(BEV)知覚の進歩は、現在、最先端のパフォーマンスと車載デプロイメントのトラクタビリティの根本的な緊張によって妨げられている。
このボトルネックは、計算的に禁止されたビュー変換と、プラットフォーム固有のカーネルへの深いルーツ依存に起因している。
本稿では、この緊張を和らげるために設計されたフレームワークであるFastBEV++を紹介し、高いパフォーマンスとデプロイメント効率を2つの原則(Fast by AlgorithmとDeployable by Design)を通じて一斉に達成できることを実証する。
モノリシックなプロジェクションを標準のIndex-Gather-Reshapeパイプラインに分解する、新しいビュー変換パラダイムを通じて、"Deployable by Design"の原則を実現する。
決定論的事前ソート戦略によって実現され、この変換は完全に基本的でオペレータのネイティブプリミティブ(例えば、Gather、Matrix Multiplication)で実行され、特殊なCUDAカーネルが不要になり、完全なTensorRTネイティブポータビリティが保証される。
同時に、我々のフレームワークは"Fast by Algorithm"であり、この分解された構造を利用して、エンドツーエンドの深層認識融合機構をシームレスに統合します。
この共同学習深度変調は, 時間的アグリゲーションとロバストなデータ拡張によってさらに強化され, BEV表現の幾何学的忠実度が著しく向上する。
FastBEV++は、自動車グレードのハードウェア(例えばTesla T4)で134 FPSを超える、例外的なリアルタイム性能を維持しながら、最先端の0.359 NDSを新たに確立している。
カスタムプラグインがなくても高精度なソリューションを提供することで、FastBEV++は、プロダクション自律システムのための成熟したスケーラブルな設計哲学を提示します。
コードは、https://github.com/ymlab/advanced-fastbev.comで公開されている。
関連論文リスト
- AutoNeural: Co-Designing Vision-Language Models for NPU Inference [24.05617280495125]
AutoNeuralは整数のみの推論のために設計されたNPUネイティブなVLMアーキテクチャである。
我々は、標準のViTエンコーダを、深く分離可能な畳み込みを利用したMobileNetV5スタイルのバックボーンに置き換える。
提案手法は,ビジョンエンコーダの量子化誤差を最大7倍,エンドツーエンドのレイテンシを従来のベースラインに比べて14倍削減する。
論文 参考訳(メタデータ) (2025-12-02T16:45:25Z) - Rethinking Vision Transformer Depth via Structural Reparameterization [16.12815682992294]
本稿では,訓練期間中に機能する分岐型構造パラメータ化手法を提案する。
提案手法では, 変圧器ブロック内の並列分岐を利用して, 合理化シングルパスモデルに体系的に統合する。
ViT-Tinyに適用した場合、このフレームワークは、ImageNet-1Kの分類精度を維持しながら、元の12層アーキテクチャを6層、4層、もしくは3層に改善する。
論文 参考訳(メタデータ) (2025-11-24T21:28:55Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。
本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。
提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文 参考訳(メタデータ) (2025-10-20T16:15:03Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - LPViT: Low-Power Semi-structured Pruning for Vision Transformers [43.126752035656196]
画像解析タスクのための畳み込みニューラルネットワークに代わる有望な代替手段として、ビジョントランスフォーマーが登場した。
ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。
我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-07-02T08:58:19Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。
平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。
我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-27T20:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。