論文の概要: MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2403.15209v2
- Date: Wed, 29 May 2024 12:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 23:01:49.034978
- Title: MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection
- Title(参考訳): MSCoTDet:マルチスペクトルペデストリアン検出のための言語駆動型マルチモーダルフュージョン
- Authors: Taeheon Kim, Sangyun Chung, Damin Yeom, Youngjoon Yu, Hak Gu Kim, Yong Man Ro,
- Abstract要約: 大規模言語モデルを用いた多スペクトル歩行者検出におけるモダリティバイアスの軽減方法について検討する。
我々は,MSCoTプロンプトをマルチスペクトル歩行者検出に統合する新しいMSCoTDetフレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.35734602609513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multispectral pedestrian detection is attractive for around-the-clock applications due to the complementary information between RGB and thermal modalities. However, current models often fail to detect pedestrians in certain cases (e.g., thermal-obscured pedestrians), particularly due to the modality bias learned from statistically biased datasets. In this paper, we investigate how to mitigate modality bias in multispectral pedestrian detection using Large Language Models (LLMs). Accordingly, we design a Multispectral Chain-of-Thought (MSCoT) prompting strategy, which prompts the LLM to perform multispectral pedestrian detection. Moreover, we propose a novel Multispectral Chain-of-Thought Detection (MSCoTDet) framework that integrates MSCoT prompting into multispectral pedestrian detection. To this end, we design a Language-driven Multi-modal Fusion (LMF) strategy that enables fusing the outputs of MSCoT prompting with the detection results of vision-based multispectral pedestrian detection models. Extensive experiments validate that MSCoTDet effectively mitigates modality biases and improves multispectral pedestrian detection.
- Abstract(参考訳): RGBと熱モダリティの相補的な情報により, マルチスペクトル歩行者検出は, 概日適用にとって魅力的である。
しかしながら、現在のモデルは、特に統計的に偏ったデータセットから得られたモダリティバイアスのために、特定のケース(例えば、熱障害のある歩行者)で歩行者を検出することができないことが多い。
本稿では,Large Language Models (LLMs) を用いた多スペクトル歩行者検出におけるモダリティバイアスの緩和について検討する。
そこで我々は,マルチスペクトル・チェーン・オブ・ソート(MSCoT)のプロンプト戦略を設計し,LLMがマルチスペクトル歩行者検出を行うように促す。
さらに,MSCoTプロンプトをマルチスペクトル歩行者検出に統合するMSCoTDet(Multispectral Chain-of-Thought Detection)フレームワークを提案する。
この目的のために我々は,MSCoTの出力を融合させる言語駆動型マルチモーダルフュージョン (LMF) 戦略を設計し,視覚に基づくマルチスペクトル歩行者検出モデルの検出結果に即した。
大規模な実験により、MSCoTDetはモダリティバイアスを効果的に軽減し、多スペクトル歩行者検出を改善することが検証された。
関連論文リスト
- Causal Mode Multiplexer: A Novel Framework for Unbiased Multispectral Pedestrian Detection [47.00174564102467]
多スペクトル歩行者検出器は, 統計的相関を超える例において, 一般化能力の低下を示す。
マルチスペクトル入力と予測の因果関係を効果的に学習する新しい因果モード多重化フレームワークを提案する。
我々は,マルチスペクトル歩行者検出におけるモダリティバイアスを評価するために,新しいデータセット(ROTX-MP)を構築した。
論文 参考訳(メタデータ) (2024-03-02T19:54:53Z) - DiffusionTrack: Diffusion Model For Multi-Object Tracking [15.025051933538043]
マルチオブジェクトトラッキング(MOT)は、単一のフレーム内の個々のオブジェクトを検出し、それらを複数のフレーム間で関連付けることを目的とした、難しい視覚タスクである。
近年のMOT法は,2段階追跡検出法(TBD)と1段階関節検出追跡法(JDT)に分類できる。
本稿では,オブジェクト検出と結合を一貫した認知拡散過程として定式化する,単純だが堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-19T04:48:41Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - MS-DETR: Multispectral Pedestrian Detection Transformer with Loosely
Coupled Fusion and Modality-Balanced Optimization [43.958268661078925]
マルチスペクトル歩行者検出TRansformer (MS-DETR) は、エンドツーエンドの多スペクトル歩行者検出器である。
MS-DETRは2つのモダリティ固有のバックボーンとトランスフォーマーエンコーダで構成され、その後マルチモーダルトランスフォーマーデコーダが続く。
我々のエンドツーエンドのMS-DETRは、挑戦的なKAIST、CVC-14、LLVIPベンチマークデータセットよりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-01T07:45:10Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。