論文の概要: MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2403.15209v1
- Date: Fri, 22 Mar 2024 13:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:19:18.260373
- Title: MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection
- Title(参考訳): MSCoTDet:マルチスペクトルペデストリアン検出のための言語駆動型マルチモーダルフュージョン
- Authors: Taeheon Kim, Sangyun Chung, Damin Yeom, Youngjoon Yu, Hak Gu Kim, Yong Man Ro,
- Abstract要約: マルチスペクトル歩行者検出は, 概日光の応用にとって魅力的な手法である。
現在のモデルは、明らかなケースで歩行者を検出するのに失敗することが多い。
本稿では,MSCoTDet(Multispectral Chain-of-Thought Detection)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.35734602609513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multispectral pedestrian detection is attractive for around-the-clock applications due to the complementary information between RGB and thermal modalities. However, current models often fail to detect pedestrians in obvious cases, especially due to the modality bias learned from statistically biased datasets. From these problems, we anticipate that maybe understanding the complementary information itself is difficult to achieve from vision-only models. Accordingly, we propose a novel Multispectral Chain-of-Thought Detection (MSCoTDet) framework, which incorporates Large Language Models (LLMs) to understand the complementary information at the semantic level and further enhance the fusion process. Specifically, we generate text descriptions of the pedestrian in each RGB and thermal modality and design a Multispectral Chain-of-Thought (MSCoT) prompting, which models a step-by-step process to facilitate cross-modal reasoning at the semantic level and perform accurate detection. Moreover, we design a Language-driven Multi-modal Fusion (LMF) strategy that enables fusing vision-driven and language-driven detections. Extensive experiments validate that MSCoTDet improves multispectral pedestrian detection.
- Abstract(参考訳): RGBと熱モダリティの相補的な情報により, マルチスペクトル歩行者検出は, 概日適用にとって魅力的である。
しかし、現在のモデルは、特に統計的に偏ったデータセットから得られたモダリティバイアスのために、明らかなケースで歩行者を検出することができないことが多い。
これらの問題から、補完的な情報自体を理解することは、視覚のみのモデルから達成することが難しいと予測される。
そこで本稿では,Large Language Models (LLM) を組み込んだMSCoTDet(Multispectral Chain-of-Thought Detection)フレームワークを提案する。
具体的には、各RGBにおける歩行者のテキスト記述と熱モダリティを生成し、ステップ・バイ・ステップのプロセスで意味レベルでの横断的推論を促進し、正確な検出を行うマルチスペクトル・チェーン・オブ・ソート(MSCoT)プロンプトを設計する。
さらに,言語駆動型マルチモーダルフュージョン(LMF)戦略を設計し,視覚駆動型および言語駆動型検出の融合を実現する。
大規模な実験により、MSCoTDetはマルチスペクトル歩行者検出を改善した。
関連論文リスト
- MultiRC: Joint Learning for Time Series Anomaly Prediction and Detection with Multi-scale Reconstructive Contrast [20.857498201188566]
異常予測と検出の連立学習のための再構成学習とコントラスト学習を統合したMultiRCを提案する。
異常予測と検出の両方のタスクに対して、MultiRCは既存の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-10-21T13:28:28Z) - Causal Mode Multiplexer: A Novel Framework for Unbiased Multispectral Pedestrian Detection [47.00174564102467]
多スペクトル歩行者検出器は, 統計的相関を超える例において, 一般化能力の低下を示す。
マルチスペクトル入力と予測の因果関係を効果的に学習する新しい因果モード多重化フレームワークを提案する。
我々は,マルチスペクトル歩行者検出におけるモダリティバイアスを評価するために,新しいデータセット(ROTX-MP)を構築した。
論文 参考訳(メタデータ) (2024-03-02T19:54:53Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - MS-DETR: Multispectral Pedestrian Detection Transformer with Loosely Coupled Fusion and Modality-Balanced Optimization [43.04788370184486]
ミスアライメントとモダリティの不均衡は 多スペクトル歩行者検出において 最も重要な問題です
MS-DETRは2つのモダリティ固有のバックボーンとトランスフォーマーエンコーダで構成され、その後マルチモーダルトランスフォーマーデコーダが続く。
我々のエンドツーエンドのMS-DETRは、挑戦的なKAIST、CVC-14、LLVIPベンチマークデータセットよりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-01T07:45:10Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。