論文の概要: When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset
- arxiv url: http://arxiv.org/abs/2407.10125v1
- Date: Sun, 14 Jul 2024 09:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:28:46.594284
- Title: When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset
- Title(参考訳): 歩行者検出とマルチモーダル学習:ジェネリストモデルとベンチマークデータセット
- Authors: Yi Zhang, Wang Zeng, Sheng Jin, Chen Qian, Ping Luo, Wentao Liu,
- Abstract要約: 本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
マルチモーダルジョイントトレーニングでは、幅広い歩行者検出ベンチマークにおいて最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 40.24765100535353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed increasing research attention towards pedestrian detection by taking the advantages of different sensor modalities (e.g. RGB, IR, Depth, LiDAR and Event). However, designing a unified generalist model that can effectively process diverse sensor modalities remains a challenge. This paper introduces MMPedestron, a novel generalist model for multimodal perception. Unlike previous specialist models that only process one or a pair of specific modality inputs, MMPedestron is able to process multiple modal inputs and their dynamic combinations. The proposed approach comprises a unified encoder for modal representation and fusion and a general head for pedestrian detection. We introduce two extra learnable tokens, i.e. MAA and MAF, for adaptive multi-modal feature fusion. In addition, we construct the MMPD dataset, the first large-scale benchmark for multi-modal pedestrian detection. This benchmark incorporates existing public datasets and a newly collected dataset called EventPed, covering a wide range of sensor modalities including RGB, IR, Depth, LiDAR, and Event data. With multi-modal joint training, our model achieves state-of-the-art performance on a wide range of pedestrian detection benchmarks, surpassing leading models tailored for specific sensor modality. For example, it achieves 71.1 AP on COCO-Persons and 72.6 AP on LLVIP. Notably, our model achieves comparable performance to the InternImage-H model on CrowdHuman with 30x smaller parameters. Codes and data are available at https://github.com/BubblyYi/MMPedestron.
- Abstract(参考訳): 近年、様々なセンサの利点(例えば、RGB、IR、Depth、LiDAR、イベント)を活かして歩行者検出に対する研究の関心が高まっている。
しかし,センサの多様さを効果的に処理できる統一ジェネリストモデルの設計は依然として課題である。
本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
1つまたは1つの特定のモード入力のみを処理する以前のスペシャリストモデルとは異なり、MMPedestronは複数のモード入力とその動的組み合わせを処理することができる。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
適応型マルチモーダル特徴融合のための2つの学習可能なトークン(MAAとMAF)を導入する。
さらに,マルチモーダル歩行者検出のための大規模なベンチマークであるMMPDデータセットを構築した。
このベンチマークには、既存のパブリックデータセットと、新たに収集されたEventPedと呼ばれるデータセットが組み込まれており、RGB、IR、Depth、LiDAR、Eventデータなど、幅広いセンサーモダリティがカバーされている。
マルチモーダルジョイントトレーニングでは,特定のセンサのモダリティに適合した先行モデルを上回る,幅広い歩行者検出ベンチマークにおいて最先端のパフォーマンスが達成される。
例えば、COCO-Personsでは71.1 AP、LLVIPでは72.6 APを達成した。
特に,本モデルでは,30倍のパラメータを持つCrowdHuman上でのInternImage-Hモデルに匹敵する性能を実現している。
コードとデータはhttps://github.com/BubblyYi/MMPedestronで公開されている。
関連論文リスト
- MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。
このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。
この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文 参考訳(メタデータ) (2024-10-15T00:52:16Z) - FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Multi-Metric AutoRec for High Dimensional and Sparse User Behavior Data
Prediction [10.351592131677018]
代表的AutoRecに基づくマルチメトリックAutoRec(MMA)を提案する。
MMAは、分散された距離空間の集合から多次元の向きを楽しみ、ユーザデータの包括的な表現を実現する。
MMAは、観測されていないユーザの行動データを予測する際に、他の7つの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-12-20T12:28:07Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Flexible-Modal Face Anti-Spoofing: A Benchmark [66.18359076810549]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。
第一のフレキシブル・モーダルなFASベンチマークを原則として確立しました。
また、フレキシブルモーダルFASのための一般的な深層モデルと特徴融合戦略についても検討する。
論文 参考訳(メタデータ) (2022-02-16T16:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。