論文の概要: Sparse4D v2: Recurrent Temporal Fusion with Sparse Model
- arxiv url: http://arxiv.org/abs/2305.14018v2
- Date: Wed, 24 May 2023 04:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 10:54:54.273213
- Title: Sparse4D v2: Recurrent Temporal Fusion with Sparse Model
- Title(参考訳): Sparse4D v2: スパースモデルによる経時的核融合
- Authors: Xuewu Lin, Tianwei Lin, Zixiang Pei, Lichao Huang, Zhizhong Su
- Abstract要約: 我々はSparse4Dの強化版を提案し、時間融合モジュールを改善した。
Sparse4Dは、時間的特徴の高度に効率的な変換を可能にし、スパース特徴のフレーム単位での伝達のみでの時間的融合を容易にする。
提案手法であるSparse4Dv2により,スパース認識アルゴリズムの性能が向上し,nuScenes 3D 検出ベンチマークの最先端結果が得られた。
- 参考スコア(独自算出の注目度): 14.15155927539293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse algorithms offer great flexibility for multi-view temporal perception
tasks. In this paper, we present an enhanced version of Sparse4D, in which we
improve the temporal fusion module by implementing a recursive form of
multi-frame feature sampling. By effectively decoupling image features and
structured anchor features, Sparse4D enables a highly efficient transformation
of temporal features, thereby facilitating temporal fusion solely through the
frame-by-frame transmission of sparse features. The recurrent temporal fusion
approach provides two main benefits. Firstly, it reduces the computational
complexity of temporal fusion from $O(T)$ to $O(1)$, resulting in significant
improvements in inference speed and memory usage. Secondly, it enables the
fusion of long-term information, leading to more pronounced performance
improvements due to temporal fusion. Our proposed approach, Sparse4Dv2, further
enhances the performance of the sparse perception algorithm and achieves
state-of-the-art results on the nuScenes 3D detection benchmark. Code will be
available at \url{https://github.com/linxuewu/Sparse4D}.
- Abstract(参考訳): スパースアルゴリズムは多視点時間知覚タスクに優れた柔軟性を提供する。
本稿では,マルチフレーム特徴サンプリングの帰納形式を実装した時間的融合モジュールを改良したsparse4dの拡張版を提案する。
画像特徴と構造化アンカー特徴を効果的に分離することにより、sparse4dは、時間的特徴の高度に効率的な変換を可能にする。
反復時間融合アプローチは2つの大きな利点をもたらす。
まず、時間的融合の計算複雑性を$o(t)$から$o(1)$に削減し、推論速度とメモリ使用量を大幅に改善する。
第二に、長期情報の融合を可能にし、時間融合によるパフォーマンスの向上がより顕著になる。
提案手法であるSparse4Dv2により,スパース認識アルゴリズムの性能が向上し,nuScenes 3D 検出ベンチマークの最先端結果が得られた。
コードは \url{https://github.com/linxuewu/Sparse4D} で入手できる。
関連論文リスト
- Sparse Refinement for Efficient High-Resolution Semantic Segmentation [40.243181997916615]
SparseRefineは、スパース高精細化を伴う密度の低分解能予測を強化する。
既存のセマンティックセグメンテーションモデルにシームレスに統合することができる。
HRNet-W48、SegFormer-B5、Mask2Former-T/L、SegNeXt-Lに1.5から3.7倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-07-26T18:00:09Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - State-Free Inference of State-Space Models: The Transfer Function Approach [132.83348321603205]
状態のない推論では、状態サイズが大きくなると大きなメモリや計算コストは発生しない。
提案した周波数領域転送関数のパラメトリゼーション特性を用いてこれを実現する。
長い畳み込みハイエナベースライン上での言語モデリングにおける難易度の改善を報告した。
論文 参考訳(メタデータ) (2024-05-10T00:06:02Z) - SparseFusion: Efficient Sparse Multi-Modal Fusion Framework for Long-Range 3D Perception [47.000734648271006]
SparseFusionは,スパース3次元特徴を基盤として構築され,より効率的な長距離知覚を実現する新しい多モード融合フレームワークである。
提案したモジュールは,前景オブジェクトが存在可能なグリッドのみを埋める意味的側面と幾何学的側面の両方から疎結合を導入する。
長距離Argoverse2データセットでは、SparseFusionはメモリフットプリントを減らし、密度の高い検出器に比べて約2倍の速度で推論を高速化する。
論文 参考訳(メタデータ) (2024-03-15T05:59:10Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction [43.60322886598972]
本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
本稿では,クロスフレーム占有領域間の連続的変換関数を捉えることにより,人間の3次元形状の時間変化を学ぶための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2021-03-30T13:36:03Z) - LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory
Alignment [0.0]
本稿では,単一範囲の画像フレームを入力とする再帰セグメンテーションアーキテクチャ(RNN)を提案する。
私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。
2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
論文 参考訳(メタデータ) (2021-03-03T09:01:45Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。