論文の概要: Robust Pedestrian Detection with Uncertain Modality
- arxiv url: http://arxiv.org/abs/2602.06363v1
- Date: Fri, 06 Feb 2026 03:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.224133
- Title: Robust Pedestrian Detection with Uncertain Modality
- Title(参考訳): 不確かさによるロバスト歩行者検出
- Authors: Qian Bie, Xiao Wang, Bin Yang, Zhixi Yu, Jun Chen, Xin Xu,
- Abstract要約: クロスモーダル歩行者検出は、24時間監視システムにおける歩行者を検出するために、RGBと熱赤外(TIR)モダリティの相補的な情報を利用する。
本稿では,アダプティブ不確実性認識ネットワーク(AUNet)を提案する。
- 参考スコア(独自算出の注目度): 16.365778558033707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing cross-modal pedestrian detection (CMPD) employs complementary information from RGB and thermal-infrared (TIR) modalities to detect pedestrians in 24h-surveillance systems.RGB captures rich pedestrian details under daylight, while TIR excels at night. However, TIR focuses primarily on the person's silhouette, neglecting critical texture details essential for detection. While the near-infrared (NIR) captures texture under low-light conditions, which effectively alleviates performance issues of RGB and detail loss in TIR, thereby reducing missed detections. To this end, we construct a new Triplet RGB-NIR-TIR (TRNT) dataset, comprising 8,281 pixel-aligned image triplets, establishing a comprehensive foundation for algorithmic research. However, due to the variable nature of real-world scenarios, imaging devices may not always capture all three modalities simultaneously. This results in input data with unpredictable combinations of modal types, which challenge existing CMPD methods that fail to extract robust pedestrian information under arbitrary input combinations, leading to significant performance degradation. To address these challenges, we propose the Adaptive Uncertainty-aware Network (AUNet) for accurately discriminating modal availability and fully utilizing the available information under uncertain inputs. Specifically, we introduce Unified Modality Validation Refinement (UMVR), which includes an uncertainty-aware router to validate modal availability and a semantic refinement to ensure the reliability of information within the modality. Furthermore, we design a Modality-Aware Interaction (MAI) module to adaptively activate or deactivate its internal interaction mechanisms per UMVR output, enabling effective complementary information fusion from available modalities.
- Abstract(参考訳): 既存の横断歩行者検出(CMPD)では、RGBと熱赤外(TIR)の相補的な情報を用いて24時間監視システムで歩行者を検出する。
しかし、TIRは主に人のシルエットに焦点を当てており、検出に必要な重要なテクスチャの詳細を無視している。
近赤外(NIR)は、低照度条件下でのテクスチャを捕捉し、RGBの性能問題とTIRの詳細な損失を効果的に軽減し、検出の欠落を減らす。
そこで本研究では,8,281画素のイメージトリプレットからなるTriplet RGB-NIR-TIR(TRNT)データセットを構築し,アルゴリズム研究の総合的な基盤を確立した。
しかし、現実のシナリオの可変性のため、イメージングデバイスは必ずしも3つのモードをすべて同時にキャプチャするとは限らない。
その結果、任意の入力の組み合わせで頑健な歩行者情報を抽出できない既存のCMPD手法に挑戦し、性能が著しく低下する。
これらの課題に対処するために,適応不確実性認識ネットワーク (AUNet) を提案する。
具体的には、モダリティ内の情報の信頼性を確保するために、モダリティ可用性を検証する不確実性対応ルータとセマンティックリファインメントを含む統一モダリティバリデーションリファインメント(UMVR)を導入する。
さらに、UMVR出力毎に内部相互作用機構を適応的に活性化または非活性化するモジュールを設計し、利用可能なモダリティからの効果的な補完情報融合を可能にする。
関連論文リスト
- SWIR-LightFusion: Multi-spectral Semantic Fusion of Synthetic SWIR with Thermal IR (LWIR/MWIR) and RGB [6.054759773528757]
スペクトル再現を主張せずにSWIR様の構造/コントラストキューを合成的に生成する。
次に、合成SWIR、LWIR、RGBモダリティを統合したマルチモーダル融合フレームワークを提案する。
この結果は、監視と自律システムにおける現実世界の応用のかなりの可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-10-15T11:00:41Z) - Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm [103.36490810025752]
既存のマルチモーダルオブジェクト追跡アプローチは、主にRGB-DepthやRGB-Thermalのようなデュアルモーダルパラダイムに焦点を当てている。
本研究は、可視RGB、深度(D)、熱赤外(TIR)を含む3つの相補的なモードを利用する、新しいマルチモーダルトラッキングタスクを導入する。
我々はRDTTrackと呼ばれる新しいマルチモーダルトラッカーを提案する。これは、事前訓練されたRGBのみのトラッカーモデルを活用することで、ロバストトラッカーのためのトリモーダル情報を統合する。
論文 参考訳(メタデータ) (2025-09-29T13:05:15Z) - Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - Cross-Modal Object Tracking via Modality-Aware Fusion Network and A
Large-Scale Dataset [20.729414075628814]
我々は、Modality-Aware Fusion Network (MAFNet) と呼ばれる適応型クロスモーダル物体追跡アルゴリズムを提案する。
MAFNetは、適応重み付け機構を用いて、RGBとNIRの両方からの情報を効率的に統合する。
論文 参考訳(メタデータ) (2023-12-22T05:22:33Z) - Thermal-Infrared Remote Target Detection System for Maritime Rescue
based on Data Augmentation with 3D Synthetic Data [4.66313002591741]
本稿では,深層学習とデータ拡張を用いた海難救助のための熱赤外(TIR)遠隔目標検出システムを提案する。
データセットの不足に対処し、モデルの堅牢性を改善するために、3Dゲーム(ARMA3)からの合成データセットを収集する。
提案したセグメンテーションモデルは,最先端セグメンテーション手法の性能を上回る。
論文 参考訳(メタデータ) (2023-10-31T12:37:49Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。