論文の概要: UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal
Representation in Bird's-Eye-View
- arxiv url: http://arxiv.org/abs/2207.08536v1
- Date: Mon, 18 Jul 2022 11:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:13:35.537471
- Title: UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal
Representation in Bird's-Eye-View
- Title(参考訳): UniFormer:Bird's-Eye-Viewにおける空間時間表現のための統合多視点融合変換器
- Authors: Zequn Qin, Jingyu Chen, Chao Chen, Xiaozhi Chen, Xi Li
- Abstract要約: 空間的および時間的融合を統一し、それらを統一された数学的定式化にマージする新しい手法を提案する。
提案手法は,空間時空間融合を併用することにより,長距離核融合を支援することができる。
本手法は,地図分割作業における最先端性能を得る。
- 参考スコア(独自算出の注目度): 20.169308746548587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's eye view (BEV) representation is a new perception formulation for
autonomous driving, which is based on spatial fusion. Further, temporal fusion
is also introduced in BEV representation and gains great success. In this work,
we propose a new method that unifies both spatial and temporal fusion and
merges them into a unified mathematical formulation. The unified fusion could
not only provide a new perspective on BEV fusion but also brings new
capabilities. With the proposed unified spatial-temporal fusion, our method
could support long-range fusion, which is hard to achieve in conventional BEV
methods. Moreover, the BEV fusion in our work is temporal-adaptive, and the
weights of temporal fusion are learnable. In contrast, conventional methods
mainly use fixed and equal weights for temporal fusion. Besides, the proposed
unified fusion could avoid information lost in conventional BEV fusion methods
and make full use of features. Extensive experiments and ablation studies on
the NuScenes dataset show the effectiveness of the proposed method and our
method gains the state-of-the-art performance in the map segmentation task.
- Abstract(参考訳): バードアイビュー(Bird's Eye View、BEV)は、空間融合に基づく自律運転のための新しい知覚定式化である。
さらに、時相融合はBEV表現にも導入され、大きな成功を収める。
本研究では,空間的および時間的融合を統一し,それらを統一的な数学的定式化に融合する新しい手法を提案する。
統合核融合は、BEV融合の新しい視点を提供するだけでなく、新たな能力ももたらす。
提案手法により,従来のBEV法では実現が困難であった長距離核融合を支援することが可能となった。
また,我々の研究におけるbev融合は時間適応的であり,時間融合の重みは学習可能である。
対照的に、従来の方法では主に時間融合に固定と等重量を用いる。
さらに、提案された統合核融合は、従来のBEV融合法で失われた情報を避け、機能を完全に活用することができる。
NuScenesデータセットの大規模な実験とアブレーション研究は,提案手法の有効性を示し,本手法は地図分割作業における最先端性能を得る。
関連論文リスト
- CoMoFusion: Fast and High-quality Fusion of Infrared and Visible Image with Consistency Model [20.02742423120295]
現在の生成モデルに基づく融合法は、しばしば不安定なトレーニングと遅い推論速度に悩まされる。
CoMoFusionは高品質な画像を生成し、高速な画像推論速度を実現する。
また、融合した画像のテクスチャや鮮やかな情報を高めるために、画素値選択に基づく新規な損失も設計する。
論文 参考訳(メタデータ) (2024-05-31T12:35:06Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - An Intermediate Fusion ViT Enables Efficient Text-Image Alignment in Diffusion Models [18.184158874126545]
異なる融合戦略が視覚言語アライメントにどのように影響するかを検討する。
特別に設計された中間融合により、テキストと画像のアライメントが向上し、生成品質が向上する。
このモデルでは, FLOPを20%削減し, トレーニング速度を50%向上させるとともに, より高いCLIPスコアと低いFIDを実現する。
論文 参考訳(メタデータ) (2024-03-25T08:16:06Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - FusionVAE: A Deep Hierarchical Variational Autoencoder for RGB Image
Fusion [16.64908104831795]
本稿では,多くの融合タスクの基盤となるFusionVAEと呼ばれる新しい階層型変分オートエンコーダを提案する。
提案手法では,複数ノイズ,隠蔽,あるいは部分的な入力画像のみを条件とした多様な画像サンプルを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T19:06:55Z) - Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。
提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。
このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文 参考訳(メタデータ) (2022-05-31T16:31:36Z) - An Integrated Framework for the Heterogeneous Spatio-Spectral-Temporal
Fusion of Remote Sensing Images [22.72006711045537]
本稿ではまず, 新たな残留残差サイクルに基づく不均一な統合フレームワークを提案する。
提案するネットワークは,同種情報だけでなく異種情報も効果的に融合することができる。
相補的ヘテロジニアス空間,スペクトル,時間情報を同時に統合するヘテロジニアス統合融合フレームワークを初めて提案する。
論文 参考訳(メタデータ) (2021-09-01T14:29:23Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - WaveFuse: A Unified Deep Framework for Image Fusion with Discrete
Wavelet Transform [8.164433158925593]
従来の画像融合法とディープラーニングを組み合わせるのはこれが初めてである。
提案アルゴリズムは,主観的評価と客観的評価の両方において,より良い融合性能を示す。
論文 参考訳(メタデータ) (2020-07-28T10:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。