論文の概要: Deep Fusion of Multi-object Densities Using Transfomer
- arxiv url: http://arxiv.org/abs/2209.08857v1
- Date: Mon, 19 Sep 2022 08:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 19:03:26.751806
- Title: Deep Fusion of Multi-object Densities Using Transfomer
- Title(参考訳): トランスフォマーを用いた多物体密度の深核融合
- Authors: Lechi Li, Chen Dai, Yuxuan Xia, Lennart Svensson
- Abstract要約: 我々は,大域多対象密度の核融合を行うトランスフォーマーを用いた多対象トラッカーを提案する。
本研究では, 変圧器を用いた核融合法の性能を, モデルに基づくベイズ融合法と比較した。
- 参考スコア(独自算出の注目度): 4.664495510551647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we demonstrate that deep learning based method can be used to
fuse multi-object densities. Given a scenario with several sensors with
possibly different field-of-views, tracking is performed locally in each sensor
by a tracker, which produces random finite set multi-object densities. To fuse
outputs from different trackers, we adapt a recently proposed transformer-based
multi-object tracker, where the fusion result is a global multi-object density,
describing the set of all alive objects at the current time. We compare the
performance of the transformer-based fusion method with a well-performing
model-based Bayesian fusion method in several simulated scenarios with
different parameter settings using synthetic data. The simulation results show
that the transformer-based fusion method outperforms the model-based Bayesian
method in our experimental scenarios.
- Abstract(参考訳): 本稿では,深層学習に基づく手法が多対象密度の融合に有効であることを示す。
異なる視野を持つ複数のセンサーを持つシナリオが与えられた場合、追跡は各センサーで局所的に追跡され、ランダムな有限集合の多目的密度を生成する。
異なるトラッカーからの出力をフューズするために、最近提案されたトランスフォーマーベースの多対象トラッカーを適用し、その融合結果がグローバルな多対象密度であり、現在の全ての生存物体の集合を記述する。
合成データを用いたパラメータ設定の異なる複数のシミュレーションシナリオにおいて, トランスフォーマーベース融合法とモデルベースベイズ融合法の性能を比較した。
シミュレーションの結果, 変圧器を用いた核融合法は実験シナリオにおいてモデルベースベイズ法よりも優れていた。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor
3D Object Detection [84.09798649295038]
物体がシーンのごく一部を占めることを考えると、密度の高い候補を見つけ、密度の高い表現を生成するのは騒々しく非効率である。
スパース候補とスパース表現のみを用いた新しいマルチセンサ3D検出法であるスパースフュージョンを提案する。
SparseFusionは、nuScenesベンチマークで最先端のパフォーマンスを達成しつつ、高速で動作し、バックボーンがより強力なメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-04-27T17:17:39Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - AFT-VO: Asynchronous Fusion Transformers for Multi-View Visual Odometry
Estimation [39.351088248776435]
複数のセンサからVOを推定する新しいトランスフォーマーベースのセンサ融合アーキテクチャであるAFT-VOを提案する。
本フレームワークは,非同期マルチビューカメラからの予測と,異なる情報源からの計測の時間的差を考慮に入れたものである。
実験により,VO推定のための多視点融合により,頑健かつ正確な軌道が得られ,難易度と照明条件の両方において高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-06-26T19:29:08Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - VMLoc: Variational Fusion For Learning-Based Multimodal Camera
Localization [46.607930208613574]
本稿では,センサの入力を共通の潜在空間に融合させる,VMLocと呼ばれるエンドツーエンドフレームワークを提案する。
バニラ変分オートエンコーダの目的関数を直接適用する従来のマルチモーダル変分法とは異なり、カメラのローカライゼーションを正確に推定する方法を示す。
論文 参考訳(メタデータ) (2020-03-12T14:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。