Fugu-MT 論文翻訳(概要): UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird's-Eye-View

論文の概要: UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird's-Eye-View

arxiv url: http://arxiv.org/abs/2207.08536v1
Date: Mon, 18 Jul 2022 11:59:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-19 17:13:35.537471
Title: UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird's-Eye-View
Title（参考訳）: UniFormer:Bird's-Eye-Viewにおける空間時間表現のための統合多視点融合変換器
Authors: Zequn Qin, Jingyu Chen, Chao Chen, Xiaozhi Chen, Xi Li
Abstract要約: 空間的および時間的融合を統一し、それらを統一された数学的定式化にマージする新しい手法を提案する。提案手法は,空間時空間融合を併用することにより,長距離核融合を支援することができる。本手法は,地図分割作業における最先端性能を得る。
参考スコア（独自算出の注目度）: 20.169308746548587
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bird's eye view (BEV) representation is a new perception formulation for autonomous driving, which is based on spatial fusion. Further, temporal fusion is also introduced in BEV representation and gains great success. In this work, we propose a new method that unifies both spatial and temporal fusion and merges them into a unified mathematical formulation. The unified fusion could not only provide a new perspective on BEV fusion but also brings new capabilities. With the proposed unified spatial-temporal fusion, our method could support long-range fusion, which is hard to achieve in conventional BEV methods. Moreover, the BEV fusion in our work is temporal-adaptive, and the weights of temporal fusion are learnable. In contrast, conventional methods mainly use fixed and equal weights for temporal fusion. Besides, the proposed unified fusion could avoid information lost in conventional BEV fusion methods and make full use of features. Extensive experiments and ablation studies on the NuScenes dataset show the effectiveness of the proposed method and our method gains the state-of-the-art performance in the map segmentation task.
Abstract（参考訳）: バードアイビュー(Bird's Eye View、BEV)は、空間融合に基づく自律運転のための新しい知覚定式化である。さらに、時相融合はBEV表現にも導入され、大きな成功を収める。本研究では,空間的および時間的融合を統一し,それらを統一的な数学的定式化に融合する新しい手法を提案する。統合核融合は、BEV融合の新しい視点を提供するだけでなく、新たな能力ももたらす。提案手法により,従来のBEV法では実現が困難であった長距離核融合を支援することが可能となった。また,我々の研究におけるbev融合は時間適応的であり,時間融合の重みは学習可能である。対照的に、従来の方法では主に時間融合に固定と等重量を用いる。さらに、提案された統合核融合は、従来のBEV融合法で失われた情報を避け、機能を完全に活用することができる。 NuScenesデータセットの大規模な実験とアブレーション研究は,提案手法の有効性を示し,本手法は地図分割作業における最先端性能を得る。

関連論文リスト

Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction [62.69089767730514]
視覚に基づく3次元意味的占有予測(VisionOcc)のための時間融合法であるGAFusionを提案する。これは、VisionOccフレームワーク内の時間融合の未調査の側面を開き、時間的手がかりと融合戦略の両方に焦点を当てる。
論文参考訳（メタデータ） (2025-04-17T14:05:33Z)
DreamFuse: Adaptive Image Fusion with Diffusion Transformer [85.69622262632066]
本稿では,画像融合データセットを生成するための反復的ヒューマン・イン・ザ・ループデータ生成パイプラインを提案する。本研究では,背景情報と背景情報の両方で一貫した画像を生成する新しいアプローチであるDreamFuseを紹介する。 DreamFuseは、融合した結果のテキスト駆動編集に一般化しながら、調和した融合を実現する。
論文参考訳（メタデータ） (2025-04-11T06:49:33Z)
OCCO: LVM-guided Infrared and Visible Image Fusion Framework based on Object-aware and Contextual COntrastive Learning [19.22887628187884]
オブジェクト認識とコンテキスト協調学習を備えた新しいLVM誘導型融合フレームワークを提案する。また、モダリティ差による融合画像における情報衝突を解決するために、新しい特徴相互作用融合ネットワークを設計する。提案手法の有効性を検証し、下流視覚課題においても例外的な性能を示す。
論文参考訳（メタデータ） (2025-03-24T12:57:23Z)
PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation [42.879223792782334]
本稿では,ハイパフォーマンスを実現するためにマルチビュー融合が不可欠である,という一般的な概念に挑戦する。ポラリとカルテシアンの分配戦略を直接融合させることで, 顕著な利得を実現することができることを示す。提案手法は高密度な特徴融合を促進し, 疎点に基づく代替手法と比較して, よりリッチな文脈情報を保存する。
論文参考訳（メタデータ） (2024-12-19T13:12:15Z)
CoMoFusion: Fast and High-quality Fusion of Infrared and Visible Image with Consistency Model [20.02742423120295]
現在の生成モデルに基づく融合法は、しばしば不安定なトレーニングと遅い推論速度に悩まされる。 CoMoFusionは高品質な画像を生成し、高速な画像推論速度を実現する。また、融合した画像のテクスチャや鮮やかな情報を高めるために、画素値選択に基づく新規な損失も設計する。
論文参考訳（メタデータ） (2024-05-31T12:35:06Z)
Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。 We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文参考訳（メタデータ） (2024-04-14T05:28:46Z)
An Intermediate Fusion ViT Enables Efficient Text-Image Alignment in Diffusion Models [18.184158874126545]
異なる融合戦略が視覚言語アライメントにどのように影響するかを検討する。特別に設計された中間融合により、テキストと画像のアライメントが向上し、生成品質が向上する。このモデルでは, FLOPを20%削減し, トレーニング速度を50%向上させるとともに, より高いCLIPスコアと低いFIDを実現する。
論文参考訳（メタデータ） (2024-03-25T08:16:06Z)
A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文参考訳（メタデータ） (2023-05-25T08:54:08Z)
Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文参考訳（メタデータ） (2023-05-19T05:50:24Z)
DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文参考訳（メタデータ） (2023-03-13T04:06:42Z)
FusionVAE: A Deep Hierarchical Variational Autoencoder for RGB Image Fusion [16.64908104831795]
本稿では,多くの融合タスクの基盤となるFusionVAEと呼ばれる新しい階層型変分オートエンコーダを提案する。提案手法では,複数ノイズ,隠蔽,あるいは部分的な入力画像のみを条件とした多様な画像サンプルを生成することができる。
論文参考訳（メタデータ） (2022-09-22T19:06:55Z)
Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文参考訳（メタデータ） (2022-05-31T16:31:36Z)
An Integrated Framework for the Heterogeneous Spatio-Spectral-Temporal Fusion of Remote Sensing Images [22.72006711045537]
本稿ではまず, 新たな残留残差サイクルに基づく不均一な統合フレームワークを提案する。提案するネットワークは,同種情報だけでなく異種情報も効果的に融合することができる。相補的ヘテロジニアス空間,スペクトル,時間情報を同時に統合するヘテロジニアス統合融合フレームワークを初めて提案する。
論文参考訳（メタデータ） (2021-09-01T14:29:23Z)
Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。我々は,画像融合変換器 (IFT) を提案する。
論文参考訳（メタデータ） (2021-07-19T16:42:49Z)
WaveFuse: A Unified Deep Framework for Image Fusion with Discrete Wavelet Transform [8.164433158925593]
従来の画像融合法とディープラーニングを組み合わせるのはこれが初めてである。提案アルゴリズムは,主観的評価と客観的評価の両方において,より良い融合性能を示す。
論文参考訳（メタデータ） (2020-07-28T10:30:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。