論文の概要: MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2403.15209v2
- Date: Wed, 29 May 2024 12:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 23:01:49.034978
- Title: MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection
- Title(参考訳): MSCoTDet:マルチスペクトルペデストリアン検出のための言語駆動型マルチモーダルフュージョン
- Authors: Taeheon Kim, Sangyun Chung, Damin Yeom, Youngjoon Yu, Hak Gu Kim, Yong Man Ro,
- Abstract要約: 大規模言語モデルを用いた多スペクトル歩行者検出におけるモダリティバイアスの軽減方法について検討する。
我々は,MSCoTプロンプトをマルチスペクトル歩行者検出に統合する新しいMSCoTDetフレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.35734602609513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multispectral pedestrian detection is attractive for around-the-clock applications due to the complementary information between RGB and thermal modalities. However, current models often fail to detect pedestrians in certain cases (e.g., thermal-obscured pedestrians), particularly due to the modality bias learned from statistically biased datasets. In this paper, we investigate how to mitigate modality bias in multispectral pedestrian detection using Large Language Models (LLMs). Accordingly, we design a Multispectral Chain-of-Thought (MSCoT) prompting strategy, which prompts the LLM to perform multispectral pedestrian detection. Moreover, we propose a novel Multispectral Chain-of-Thought Detection (MSCoTDet) framework that integrates MSCoT prompting into multispectral pedestrian detection. To this end, we design a Language-driven Multi-modal Fusion (LMF) strategy that enables fusing the outputs of MSCoT prompting with the detection results of vision-based multispectral pedestrian detection models. Extensive experiments validate that MSCoTDet effectively mitigates modality biases and improves multispectral pedestrian detection.
- Abstract(参考訳): RGBと熱モダリティの相補的な情報により, マルチスペクトル歩行者検出は, 概日適用にとって魅力的である。
しかしながら、現在のモデルは、特に統計的に偏ったデータセットから得られたモダリティバイアスのために、特定のケース(例えば、熱障害のある歩行者)で歩行者を検出することができないことが多い。
本稿では,Large Language Models (LLMs) を用いた多スペクトル歩行者検出におけるモダリティバイアスの緩和について検討する。
そこで我々は,マルチスペクトル・チェーン・オブ・ソート(MSCoT)のプロンプト戦略を設計し,LLMがマルチスペクトル歩行者検出を行うように促す。
さらに,MSCoTプロンプトをマルチスペクトル歩行者検出に統合するMSCoTDet(Multispectral Chain-of-Thought Detection)フレームワークを提案する。
この目的のために我々は,MSCoTの出力を融合させる言語駆動型マルチモーダルフュージョン (LMF) 戦略を設計し,視覚に基づくマルチスペクトル歩行者検出モデルの検出結果に即した。
大規模な実験により、MSCoTDetはモダリティバイアスを効果的に軽減し、多スペクトル歩行者検出を改善することが検証された。
関連論文リスト
- MultiRC: Joint Learning for Time Series Anomaly Prediction and Detection with Multi-scale Reconstructive Contrast [20.857498201188566]
異常予測と検出の連立学習のための再構成学習とコントラスト学習を統合したMultiRCを提案する。
異常予測と検出の両方のタスクに対して、MultiRCは既存の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-10-21T13:28:28Z) - Causal Mode Multiplexer: A Novel Framework for Unbiased Multispectral Pedestrian Detection [47.00174564102467]
多スペクトル歩行者検出器は, 統計的相関を超える例において, 一般化能力の低下を示す。
マルチスペクトル入力と予測の因果関係を効果的に学習する新しい因果モード多重化フレームワークを提案する。
我々は,マルチスペクトル歩行者検出におけるモダリティバイアスを評価するために,新しいデータセット(ROTX-MP)を構築した。
論文 参考訳(メタデータ) (2024-03-02T19:54:53Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - MS-DETR: Multispectral Pedestrian Detection Transformer with Loosely Coupled Fusion and Modality-Balanced Optimization [43.04788370184486]
ミスアライメントとモダリティの不均衡は 多スペクトル歩行者検出において 最も重要な問題です
MS-DETRは2つのモダリティ固有のバックボーンとトランスフォーマーエンコーダで構成され、その後マルチモーダルトランスフォーマーデコーダが続く。
我々のエンドツーエンドのMS-DETRは、挑戦的なKAIST、CVC-14、LLVIPベンチマークデータセットよりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-01T07:45:10Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。