論文の概要: UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal
Representation in Bird's-Eye-View
- arxiv url: http://arxiv.org/abs/2207.08536v1
- Date: Mon, 18 Jul 2022 11:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:13:35.537471
- Title: UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal
Representation in Bird's-Eye-View
- Title(参考訳): UniFormer:Bird's-Eye-Viewにおける空間時間表現のための統合多視点融合変換器
- Authors: Zequn Qin, Jingyu Chen, Chao Chen, Xiaozhi Chen, Xi Li
- Abstract要約: 空間的および時間的融合を統一し、それらを統一された数学的定式化にマージする新しい手法を提案する。
提案手法は,空間時空間融合を併用することにより,長距離核融合を支援することができる。
本手法は,地図分割作業における最先端性能を得る。
- 参考スコア(独自算出の注目度): 20.169308746548587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's eye view (BEV) representation is a new perception formulation for
autonomous driving, which is based on spatial fusion. Further, temporal fusion
is also introduced in BEV representation and gains great success. In this work,
we propose a new method that unifies both spatial and temporal fusion and
merges them into a unified mathematical formulation. The unified fusion could
not only provide a new perspective on BEV fusion but also brings new
capabilities. With the proposed unified spatial-temporal fusion, our method
could support long-range fusion, which is hard to achieve in conventional BEV
methods. Moreover, the BEV fusion in our work is temporal-adaptive, and the
weights of temporal fusion are learnable. In contrast, conventional methods
mainly use fixed and equal weights for temporal fusion. Besides, the proposed
unified fusion could avoid information lost in conventional BEV fusion methods
and make full use of features. Extensive experiments and ablation studies on
the NuScenes dataset show the effectiveness of the proposed method and our
method gains the state-of-the-art performance in the map segmentation task.
- Abstract(参考訳): バードアイビュー(Bird's Eye View、BEV)は、空間融合に基づく自律運転のための新しい知覚定式化である。
さらに、時相融合はBEV表現にも導入され、大きな成功を収める。
本研究では,空間的および時間的融合を統一し,それらを統一的な数学的定式化に融合する新しい手法を提案する。
統合核融合は、BEV融合の新しい視点を提供するだけでなく、新たな能力ももたらす。
提案手法により,従来のBEV法では実現が困難であった長距離核融合を支援することが可能となった。
また,我々の研究におけるbev融合は時間適応的であり,時間融合の重みは学習可能である。
対照的に、従来の方法では主に時間融合に固定と等重量を用いる。
さらに、提案された統合核融合は、従来のBEV融合法で失われた情報を避け、機能を完全に活用することができる。
NuScenesデータセットの大規模な実験とアブレーション研究は,提案手法の有効性を示し,本手法は地図分割作業における最先端性能を得る。
関連論文リスト
- Infrared and visible Image Fusion with Language-driven Loss in CLIP
Embedding Space [11.781163181013454]
Infrared-visible Image fusion (IVIF) は2つの画像の高相性により注目されている。
基底構造融合画像の欠如により、現在のディープラーニングベースの手法の融合出力は、数学的に定義された損失関数に大きく依存する。
本稿では,IVIFの目的を自然言語で表現することを提案する。これは,現在の損失における融合出力の明確な数学的モデリングを回避することができる。
論文 参考訳(メタデータ) (2024-02-26T03:08:01Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [142.84362457655516]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然像が特定の変換に等しくなるという以前の知識に基づいている。
実験により,赤外可視画像と医用画像の両方に対して高品質な融合結果が得られた。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - FusionVAE: A Deep Hierarchical Variational Autoencoder for RGB Image
Fusion [16.64908104831795]
本稿では,多くの融合タスクの基盤となるFusionVAEと呼ばれる新しい階層型変分オートエンコーダを提案する。
提案手法では,複数ノイズ,隠蔽,あるいは部分的な入力画像のみを条件とした多様な画像サンプルを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T19:06:55Z) - Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。
提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。
このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文 参考訳(メタデータ) (2022-05-31T16:31:36Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional
Emotion Recognition [57.766837326063346]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - An Integrated Framework for the Heterogeneous Spatio-Spectral-Temporal
Fusion of Remote Sensing Images [22.72006711045537]
本稿ではまず, 新たな残留残差サイクルに基づく不均一な統合フレームワークを提案する。
提案するネットワークは,同種情報だけでなく異種情報も効果的に融合することができる。
相補的ヘテロジニアス空間,スペクトル,時間情報を同時に統合するヘテロジニアス統合融合フレームワークを初めて提案する。
論文 参考訳(メタデータ) (2021-09-01T14:29:23Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - WaveFuse: A Unified Deep Framework for Image Fusion with Discrete
Wavelet Transform [8.164433158925593]
従来の画像融合法とディープラーニングを組み合わせるのはこれが初めてである。
提案アルゴリズムは,主観的評価と客観的評価の両方において,より良い融合性能を示す。
論文 参考訳(メタデータ) (2020-07-28T10:30:47Z) - Appearance Fusion of Multiple Cues for Video Co-localization [3.908842679355254]
本研究は、複数のオブジェクト関連キューを活用しながら、ビデオのジョイントオブジェクト発見問題に対処する。
従来の空間融合法とは対照的に,新しい外観融合法が提案されている。
論文 参考訳(メタデータ) (2020-03-21T02:26:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。