論文の概要: Strip-Fusion: Spatiotemporal Fusion for Multispectral Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2601.18008v1
- Date: Sun, 25 Jan 2026 21:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.580054
- Title: Strip-Fusion: Spatiotemporal Fusion for Multispectral Pedestrian Detection
- Title(参考訳): Strip-Fusion: Multispectral Pedestrian Detection のための時空間固定法
- Authors: Asiegbu Miracle Kanu-Asiegbu, Nitin Jotwani, Xiaoxiao Du,
- Abstract要約: 多スペクトルモード(可視光と熱)は、相補的な視覚情報を提供することで歩行者検出性能を高めることができる。
既存のアプローチは主に空間融合に焦点を当て、時空間情報を無視する。
本研究では,入力画像の誤り修正に頑健な空間時間融合ネットワークStrip-Fusionを提案する。
- 参考スコア(独自算出の注目度): 0.27528170226206433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pedestrian detection is a critical task in robot perception. Multispectral modalities (visible light and thermal) can boost pedestrian detection performance by providing complementary visual information. Several gaps remain with multispectral pedestrian detection methods. First, existing approaches primarily focus on spatial fusion and often neglect temporal information. Second, RGB and thermal image pairs in multispectral benchmarks may not always be perfectly aligned. Pedestrians are also challenging to detect due to varying lighting conditions, occlusion, etc. This work proposes Strip-Fusion, a spatial-temporal fusion network that is robust to misalignment in input images, as well as varying lighting conditions and heavy occlusions. The Strip-Fusion pipeline integrates temporally adaptive convolutions to dynamically weigh spatial-temporal features, enabling our model to better capture pedestrian motion and context over time. A novel Kullback-Leibler divergence loss was designed to mitigate modality imbalance between visible and thermal inputs, guiding feature alignment toward the more informative modality during training. Furthermore, a novel post-processing algorithm was developed to reduce false positives. Extensive experimental results show that our method performs competitively for both the KAIST and the CVC-14 benchmarks. We also observed significant improvements compared to previous state-of-the-art on challenging conditions such as heavy occlusion and misalignment.
- Abstract(参考訳): 歩行者検出はロボット知覚において重要な課題である。
多スペクトルモード(可視光と熱)は、相補的な視覚情報を提供することで歩行者検出性能を高めることができる。
多スペクトル歩行者検出法ではいくつかのギャップが残っている。
まず、既存のアプローチは主に空間融合に焦点を当て、時空間情報を無視する。
第二に、マルチスペクトルベンチマークにおけるRGBと熱画像のペアは、必ずしも完全に整合しているとは限らない。
歩行者は、照明条件や閉塞などによって検出も困難である。
本研究は,入力画像の誤り修正に頑健な空間時間融合ネットワークStrip-Fusionを提案する。
Strip-Fusionパイプラインは、時間的適応的な畳み込みを統合し、空間的時間的特徴を動的に測定することで、時間とともに歩行者の動きや状況をよりよく捉えることができる。
Kullback-Leibler分散損失は、可視的入力と熱的入力の間のモダリティの不均衡を緩和し、訓練中により情報的なモダリティに向けて特徴的アライメントを導くように設計された。
さらに、偽陽性を減らすために、新しい後処理アルゴリズムを開発した。
本手法は, KAISTとCVC-14ベンチマークの両ベンチマークにおいて, 競合的に動作することを示す。
また, 重度閉塞や不適応などの課題に対して, 従来の最先端技術と比較して, 顕著な改善が見られた。
関連論文リスト
- Contrast-Guided Cross-Modal Distillation for Thermal Object Detection [1.8477401359673709]
低いコントラストと弱い高周波キューは重複し、重複し、重複し、小さなオブジェクトを見逃し、クラスを混乱させる。
同じクラスの機能をまとめることで、インスタンスレベルの決定境界を鋭くする、トレーニングのみの目標を導入します。
実験では,提案手法は先行手法より優れ,最先端性能を実現した。
論文 参考訳(メタデータ) (2025-11-03T10:38:01Z) - Transformer-Based Dual-Optical Attention Fusion Crowd Head Point Counting and Localization Network [9.214772627896156]
モデルは、赤外線画像から補完情報を導入することにより、デュアル光注意融合モジュール(DAFP)を設計する。
提案手法は,特に高密度低照度シーンにおいて,既存の手法よりも性能が優れている。
論文 参考訳(メタデータ) (2025-05-11T10:55:14Z) - MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection [0.5898893619901381]
本稿では,効率的な歩行者検出のためのプラグ・アンド・プレイ型時空間融合パイプラインであるMambaSTを提案する。
暗黒または低照度条件下でRGBカメラを用いて正確な検出を行うことは困難である。
また,提案モデルにより,小規模歩行者検出の性能も向上する。
論文 参考訳(メタデータ) (2024-08-02T06:20:48Z) - Beyond Night Visibility: Adaptive Multi-Scale Fusion of Infrared and
Visible Images [49.75771095302775]
赤外線および可視画像を用いた適応型マルチスケール核融合ネットワーク(AMFusion)を提案する。
まず、赤外画像と可視画像から空間的特徴と意味的特徴を分離し、前者が光分布の調整に使用される。
第2に,事前学習したバックボーンから抽出した検出機能を利用して,意味的特徴の融合を誘導する。
第3に、通常の光強度で融合画像を制約する新しい照明損失を提案する。
論文 参考訳(メタデータ) (2024-03-02T03:52:07Z) - Graph Spatiotemporal Process for Multivariate Time Series Anomaly
Detection with Missing Values [67.76168547245237]
本稿では,グラフ時間過程と異常スコアラを用いて異常を検出するGST-Proという新しいフレームワークを提案する。
実験結果から,GST-Pro法は時系列データ中の異常を効果的に検出し,最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-11T10:10:16Z) - Factorized Inverse Path Tracing for Efficient and Accurate
Material-Lighting Estimation [97.0195314255101]
逆経路追跡は計算に高価であり、反射と放出の間に曖昧さが存在する。
当社のFactized Inverse Path Tracing (FIPT) は, ファクタリング光輸送の定式化によってこれらの課題に対処する。
提案アルゴリズムは, 従来よりも高精度な材料と照明の最適化を実現し, あいまいさの解消に有効である。
論文 参考訳(メタデータ) (2023-04-12T07:46:05Z) - Breaking Modality Disparity: Harmonized Representation for Infrared and
Visible Image Registration [66.33746403815283]
シーン適応型赤外線と可視画像の登録を提案する。
我々は、異なる平面間の変形をシミュレートするためにホモグラフィーを用いる。
我々は、まず、赤外線と可視画像のデータセットが不一致であることを示す。
論文 参考訳(メタデータ) (2023-04-12T06:49:56Z) - ReDFeat: Recoupling Detection and Description for Multimodal Feature
Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。
本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。
我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文 参考訳(メタデータ) (2022-05-16T04:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。