論文の概要: EfficientMFD: Towards More Efficient Multimodal Synchronous Fusion Detection
- arxiv url: http://arxiv.org/abs/2403.09323v1
- Date: Thu, 14 Mar 2024 12:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:47:15.544255
- Title: EfficientMFD: Towards More Efficient Multimodal Synchronous Fusion Detection
- Title(参考訳): 効率的なMFD:より効率的なマルチモーダル同期核融合検出を目指して
- Authors: Jiaqing Zhang, Mingxiang Cao, Xue Yang, Weiying Xie, Jie Lei, Daixun Li, Geng Yang, Wenbo Huang, Yunsong Li,
- Abstract要約: 本稿では,1つのトレーニングステップのみで良好な性能を示すモデルを単純化するために,EfficientMFDと呼ばれる新しいエンドツーエンドのマルチモーダル核融合検出アルゴリズムを提案する。
いくつかの公開データセットで広範囲にテストし、視覚的に魅力的な融合だけでなく、良好な検出性能でも優れた性能を示す。
- 参考スコア(独自算出の注目度): 24.672190115497425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal image fusion and object detection play a vital role in autonomous driving. Current joint learning methods have made significant progress in the multimodal fusion detection task combining the texture detail and objective semantic information. However, the tedious training steps have limited its applications to wider real-world industrial deployment. To address this limitation, we propose a novel end-to-end multimodal fusion detection algorithm, named EfficientMFD, to simplify models that exhibit decent performance with only one training step. Synchronous joint optimization is utilized in an end-to-end manner between two components, thus not being affected by the local optimal solution of the individual task. Besides, a comprehensive optimization is established in the gradient matrix between the shared parameters for both tasks. It can converge to an optimal point with fusion detection weights. We extensively test it on several public datasets, demonstrating superior performance on not only visually appealing fusion but also favorable detection performance (e.g., 6.6% mAP50:95) over other state-of-the-art approaches.
- Abstract(参考訳): マルチモーダル画像融合と物体検出は、自律運転において重要な役割を果たす。
現在の共同学習手法は,テクスチャの詳細と客観的意味情報を組み合わせたマルチモーダル融合検出タスクにおいて大きな進歩を遂げている。
しかし、退屈なトレーニング手順は、その応用をより広い現実世界の産業展開に限定している。
この制限に対処するために,EfficientMFDと呼ばれる新しいエンドツーエンドのマルチモーダル核融合検出アルゴリズムを提案する。
同期継手最適化は2つのコンポーネント間のエンドツーエンドで利用されるため、個々のタスクの局所最適解の影響を受けない。
さらに、両タスクの共有パラメータ間の勾配行列に包括的な最適化が確立される。
核融合検出重量で最適点に収束することができる。
いくつかの公開データセットでこれを広範囲にテストし、視覚的に魅力的な融合だけでなく、他の最先端のアプローチよりも優れた検出性能(例:6.6% mAP50:95)を示す。
関連論文リスト
- From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - MAFF-Net: Filter False Positive for 3D Vehicle Detection with
Multi-modal Adaptive Feature Fusion [35.408594498595335]
マルチモーダル核融合に基づく3次元車両検出は、自律運転など多くのアプリケーションにおいて重要な課題である。
本稿では,エンド・ツー・エンドのトレーニング可能なシングルステージ・マルチモーダル適応型ネットワークを提案する。
異なる利用シナリオに対応するために、2つの融合技術が提案されている。
論文 参考訳(メタデータ) (2020-09-23T06:31:59Z) - Multi-Modality Cascaded Fusion Technology for Autonomous Driving [18.93984652806857]
本稿では,決定レベルと特徴レベルの融合の利点を生かした,汎用的なマルチモーダリティ・カスケード融合フレームワークを提案する。
融合過程において、異なるモードからセンサ間の誤差を低減するために動的座標アライメント(DCA)を行う。
提案手法は, エンド・ツー・エンド・フュージョン法に比べ, より解釈しやすく, 柔軟である。
論文 参考訳(メタデータ) (2020-02-08T10:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。