論文の概要: When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset
- arxiv url: http://arxiv.org/abs/2407.10125v1
- Date: Sun, 14 Jul 2024 09:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:28:46.594284
- Title: When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset
- Title(参考訳): 歩行者検出とマルチモーダル学習:ジェネリストモデルとベンチマークデータセット
- Authors: Yi Zhang, Wang Zeng, Sheng Jin, Chen Qian, Ping Luo, Wentao Liu,
- Abstract要約: 本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
マルチモーダルジョイントトレーニングでは、幅広い歩行者検出ベンチマークにおいて最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 40.24765100535353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed increasing research attention towards pedestrian detection by taking the advantages of different sensor modalities (e.g. RGB, IR, Depth, LiDAR and Event). However, designing a unified generalist model that can effectively process diverse sensor modalities remains a challenge. This paper introduces MMPedestron, a novel generalist model for multimodal perception. Unlike previous specialist models that only process one or a pair of specific modality inputs, MMPedestron is able to process multiple modal inputs and their dynamic combinations. The proposed approach comprises a unified encoder for modal representation and fusion and a general head for pedestrian detection. We introduce two extra learnable tokens, i.e. MAA and MAF, for adaptive multi-modal feature fusion. In addition, we construct the MMPD dataset, the first large-scale benchmark for multi-modal pedestrian detection. This benchmark incorporates existing public datasets and a newly collected dataset called EventPed, covering a wide range of sensor modalities including RGB, IR, Depth, LiDAR, and Event data. With multi-modal joint training, our model achieves state-of-the-art performance on a wide range of pedestrian detection benchmarks, surpassing leading models tailored for specific sensor modality. For example, it achieves 71.1 AP on COCO-Persons and 72.6 AP on LLVIP. Notably, our model achieves comparable performance to the InternImage-H model on CrowdHuman with 30x smaller parameters. Codes and data are available at https://github.com/BubblyYi/MMPedestron.
- Abstract(参考訳): 近年、様々なセンサの利点(例えば、RGB、IR、Depth、LiDAR、イベント)を活かして歩行者検出に対する研究の関心が高まっている。
しかし,センサの多様さを効果的に処理できる統一ジェネリストモデルの設計は依然として課題である。
本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
1つまたは1つの特定のモード入力のみを処理する以前のスペシャリストモデルとは異なり、MMPedestronは複数のモード入力とその動的組み合わせを処理することができる。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
適応型マルチモーダル特徴融合のための2つの学習可能なトークン(MAAとMAF)を導入する。
さらに,マルチモーダル歩行者検出のための大規模なベンチマークであるMMPDデータセットを構築した。
このベンチマークには、既存のパブリックデータセットと、新たに収集されたEventPedと呼ばれるデータセットが組み込まれており、RGB、IR、Depth、LiDAR、Eventデータなど、幅広いセンサーモダリティがカバーされている。
マルチモーダルジョイントトレーニングでは,特定のセンサのモダリティに適合した先行モデルを上回る,幅広い歩行者検出ベンチマークにおいて最先端のパフォーマンスが達成される。
例えば、COCO-Personsでは71.1 AP、LLVIPでは72.6 APを達成した。
特に,本モデルでは,30倍のパラメータを持つCrowdHuman上でのInternImage-Hモデルに匹敵する性能を実現している。
コードとデータはhttps://github.com/BubblyYi/MMPedestronで公開されている。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。
このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。
この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文 参考訳(メタデータ) (2024-10-15T00:52:16Z) - FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Multi-Metric AutoRec for High Dimensional and Sparse User Behavior Data
Prediction [10.351592131677018]
代表的AutoRecに基づくマルチメトリックAutoRec(MMA)を提案する。
MMAは、分散された距離空間の集合から多次元の向きを楽しみ、ユーザデータの包括的な表現を実現する。
MMAは、観測されていないユーザの行動データを予測する際に、他の7つの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-12-20T12:28:07Z) - Multi-Stage Based Feature Fusion of Multi-Modal Data for Human Activity
Recognition [6.0306313759213275]
本稿では,RGBビデオとIMUセンサの機能を効果的に組み合わせたマルチモーダルフレームワークを提案する。
最初の段階では,各入力エンコーダが特徴を効果的に抽出することを学ぶ。
ビデオのみに比べて22%,11%,MMActデータセットでは20%,12%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2022-11-08T15:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。