論文の概要: Multimodal Collaboration Networks for Geospatial Vehicle Detection in Dense, Occluded, and Large-Scale Events
- arxiv url: http://arxiv.org/abs/2405.08251v1
- Date: Tue, 14 May 2024 00:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 15:17:48.373418
- Title: Multimodal Collaboration Networks for Geospatial Vehicle Detection in Dense, Occluded, and Large-Scale Events
- Title(参考訳): 密集, 密集, 大規模イベントにおける地理空間車両検出のためのマルチモーダル協調ネットワーク
- Authors: Xin Wu, Zhanchao Huang, Li Wang, Jocelyn Chanussot, Jiaojiao Tian,
- Abstract要約: 大規模災害では, 災害現場の物体検出能力に頼って, 最適な救助経路の計画を立てる。
既存の手法は、通常RGBのモダリティに基づいており、混み合った環境で同じ色やテクスチャでターゲットを区別するのに苦労している。
密集・隠蔽車検出のためのマルチモーダル協調ネットワーク MuDet を提案する。
- 参考スコア(独自算出の注目度): 29.86323896541765
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In large-scale disaster events, the planning of optimal rescue routes depends on the object detection ability at the disaster scene, with one of the main challenges being the presence of dense and occluded objects. Existing methods, which are typically based on the RGB modality, struggle to distinguish targets with similar colors and textures in crowded environments and are unable to identify obscured objects. To this end, we first construct two multimodal dense and occlusion vehicle detection datasets for large-scale events, utilizing RGB and height map modalities. Based on these datasets, we propose a multimodal collaboration network for dense and occluded vehicle detection, MuDet for short. MuDet hierarchically enhances the completeness of discriminable information within and across modalities and differentiates between simple and complex samples. MuDet includes three main modules: Unimodal Feature Hierarchical Enhancement (Uni-Enh), Multimodal Cross Learning (Mul-Lea), and Hard-easy Discriminative (He-Dis) Pattern. Uni-Enh and Mul-Lea enhance the features within each modality and facilitate the cross-integration of features from two heterogeneous modalities. He-Dis effectively separates densely occluded vehicle targets with significant intra-class differences and minimal inter-class differences by defining and thresholding confidence values, thereby suppressing the complex background. Experimental results on two re-labeled multimodal benchmark datasets, the 4K-SAI-LCS dataset, and the ISPRS Potsdam dataset, demonstrate the robustness and generalization of the MuDet. The codes of this work are available openly at \url{https://github.com/Shank2358/MuDet}.
- Abstract(参考訳): 大規模災害では, 災害現場の物体検出能力に依存し, 密集・密集した物体の存在が主な課題となっている。
既存の手法は、通常RGBのモダリティに基づいており、混み合った環境で同じ色やテクスチャでターゲットを区別するのに苦労しており、不明瞭な物体を識別できない。
この目的のために、RGBと高さマップのモダリティを利用して、大規模イベントのための2つのマルチモーダル密閉車両検出データセットを構築した。
これらのデータセットに基づいて、密集かつ隠蔽された車両検出のためのマルチモーダル協調ネットワークであるMuDetを提案する。
MuDetは階層的に、モダリティ内の識別可能な情報の完全性を高め、単純なサンプルと複雑なサンプルを区別する。
MuDetには、Unimodal Feature Hierarchical Enhancement (Uni-Enh)、Multimodal Cross Learning (Mul-Lea)、Hard-easy Discriminative (He-Dis)パターンの3つの主要なモジュールが含まれている。
Uni-Enh と Mul-Lea は各モジュラリティ内の特徴を強化し、2つの不均一なモジュラリティから特徴のクロス積分を促進する。
He-Disは、密閉された車両ターゲットを、信頼性値の定義としきい値の閾値によって、クラス内の大きな違いとクラス間の最小限の差で効果的に分離し、複雑な背景を抑える。
4K-SAI-LCSデータセットとISPRS Potsdamデータセットという2つの再ラベルされたマルチモーダルベンチマークデータセットの実験結果は、MuDetの堅牢性と一般化を実証している。
この作業のコードは \url{https://github.com/Shank2358/MuDet} で公開されている。
関連論文リスト
- Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。
マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。
ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文 参考訳(メタデータ) (2024-09-30T17:57:50Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - M$^3$Net: Multilevel, Mixed and Multistage Attention Network for Salient
Object Detection [22.60675416709486]
M$3$Netは、Salient Object Detectionのためのアテンションネットワークである。
マルチレベル特徴間の相互作用を実現するためのクロスアテンションアプローチ。
Mixed Attention Blockは、グローバルレベルとローカルレベルの両方でコンテキストをモデリングすることを目的としている。
集約された特徴をステージごとに最適化するためのマルチレベル監視戦略。
論文 参考訳(メタデータ) (2023-09-15T12:46:14Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Hierarchical Disentanglement-Alignment Network for Robust SAR Vehicle
Recognition [18.38295403066007]
HDANetは機能障害とアライメントを統合フレームワークに統合する。
提案手法は,MSTARデータセットにおいて,9つの動作条件にまたがる顕著なロバスト性を示す。
論文 参考訳(メタデータ) (2023-04-07T09:11:29Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。