論文の概要: Improving Multispectral Pedestrian Detection by Addressing Modality
Imbalance Problems
- arxiv url: http://arxiv.org/abs/2008.03043v2
- Date: Mon, 17 Aug 2020 02:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:29:08.751363
- Title: Improving Multispectral Pedestrian Detection by Addressing Modality
Imbalance Problems
- Title(参考訳): モダリティ不均衡問題への対処によるマルチスペクトル歩行者検出の改善
- Authors: Kailai Zhou, Linsen Chen, Xun Cao
- Abstract要約: 多スペクトル歩行者検出は、色温度変調を利用して、照明条件の不十分さに適応することができる。
従来の歩行者検出と比較して、多スペクトル歩行者検出はモダリティの不均衡問題に悩まされている。
より柔軟でバランスの取れた最適化プロセスを容易にするMBNet(Modality Balance Network)を提案する。
- 参考スコア(独自算出の注目度): 12.806496583571858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral pedestrian detection is capable of adapting to insufficient
illumination conditions by leveraging color-thermal modalities. On the other
hand, it is still lacking of in-depth insights on how to fuse the two
modalities effectively. Compared with traditional pedestrian detection, we find
multispectral pedestrian detection suffers from modality imbalance problems
which will hinder the optimization process of dual-modality network and depress
the performance of detector. Inspired by this observation, we propose Modality
Balance Network (MBNet) which facilitates the optimization process in a much
more flexible and balanced manner. Firstly, we design a novel Differential
Modality Aware Fusion (DMAF) module to make the two modalities complement each
other. Secondly, an illumination aware feature alignment module selects
complementary features according to the illumination conditions and aligns the
two modality features adaptively. Extensive experimental results demonstrate
MBNet outperforms the state-of-the-arts on both the challenging KAIST and
CVC-14 multispectral pedestrian datasets in terms of the accuracy and the
computational efficiency. Code is available at
https://github.com/CalayZhou/MBNet.
- Abstract(参考訳): 多スペクトル歩行者検出は、色熱的モダリティを利用して、照明条件の不足に適応することができる。
一方で、この2つのモダリティを効果的に融合する方法に関する深い洞察が依然として欠けている。
従来の歩行者検出と比較すると,マルチスペクトル歩行者検出ではモダリティ不均衡問題が発生し,デュアルモダリティネットワークの最適化プロセスが阻害され,検出器の性能が低下する。
この観測に触発されて、より柔軟でバランスの取れた最適化プロセスを容易にするモダリティバランスネットワーク(MBNet)を提案する。
まず, 2つのモダリティを相互補完するために,新しい微分モダリティ認識融合(dmaf)モジュールを設計する。
次に、照明意識特徴アライメントモジュールは、照明条件に応じて相補的特徴を選択し、2つのモード特徴を適応的に調整する。
MBNetは、精度と計算効率の観点から、挑戦的なKAISTとCVC-14多スペクトル歩行者データセットの両方において、最先端技術よりも優れていることを示す。
コードはhttps://github.com/calayzhou/mbnetで入手できる。
関連論文リスト
- AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Flexible-modal Deception Detection with Audio-Visual Adapter [20.6514221670249]
本稿では,2つのモーダルの時間的特徴を効率的に融合する新しい枠組みを提案する。
2つのベンチマークデータセットを用いて実験を行った結果,提案手法は優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-02-11T15:47:20Z) - MS-DETR: Multispectral Pedestrian Detection Transformer with Loosely Coupled Fusion and Modality-Balanced Optimization [43.04788370184486]
ミスアライメントとモダリティの不均衡は 多スペクトル歩行者検出において 最も重要な問題です
MS-DETRは2つのモダリティ固有のバックボーンとトランスフォーマーエンコーダで構成され、その後マルチモーダルトランスフォーマーデコーダが続く。
我々のエンドツーエンドのMS-DETRは、挑戦的なKAIST、CVC-14、LLVIPベンチマークデータセットよりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-01T07:45:10Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。