論文の概要: Hybrid Attention for Robust RGB-T Pedestrian Detection in Real-World Conditions
- arxiv url: http://arxiv.org/abs/2411.03576v1
- Date: Wed, 06 Nov 2024 00:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:31.304796
- Title: Hybrid Attention for Robust RGB-T Pedestrian Detection in Real-World Conditions
- Title(参考訳): 実環境におけるロバストなRGB-T歩行者検出のためのハイブリッド注意
- Authors: Arunkumar Rathinam, Leo Pauly, Abd El Rahman Shabayek, Wassim Rharbaoui, Anis Kacem, Vincent Gaudillière, Djamila Aouada,
- Abstract要約: 近年,特に自動運転の分野では,多スペクトル歩行者検出が注目されている。
対向照明条件による課題に対処するため、熱画像と可視画像の組み合わせは、その利点を実証した。
既存の融合法は、RGB-Thermal (RGB-T) 画像対が完全に重複しているという批判的な仮定に依存している。
実世界のアプリケーションにおける推論時に発生する部分重なりとセンサ故障に対して頑健なRGB-T融合アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.029298456323835
- License:
- Abstract: Multispectral pedestrian detection has gained significant attention in recent years, particularly in autonomous driving applications. To address the challenges posed by adversarial illumination conditions, the combination of thermal and visible images has demonstrated its advantages. However, existing fusion methods rely on the critical assumption that the RGB-Thermal (RGB-T) image pairs are fully overlapping. These assumptions often do not hold in real-world applications, where only partial overlap between images can occur due to sensors configuration. Moreover, sensor failure can cause loss of information in one modality. In this paper, we propose a novel module called the Hybrid Attention (HA) mechanism as our main contribution to mitigate performance degradation caused by partial overlap and sensor failure, i.e. when at least part of the scene is acquired by only one sensor. We propose an improved RGB-T fusion algorithm, robust against partial overlap and sensor failure encountered during inference in real-world applications. We also leverage a mobile-friendly backbone to cope with resource constraints in embedded systems. We conducted experiments by simulating various partial overlap and sensor failure scenarios to evaluate the performance of our proposed method. The results demonstrate that our approach outperforms state-of-the-art methods, showcasing its superiority in handling real-world challenges.
- Abstract(参考訳): 近年,特に自動運転の分野では,多スペクトル歩行者検出が注目されている。
対向照明条件による課題に対処するため、熱画像と可視画像の組み合わせは、その利点を実証した。
しかし、既存の融合法は、RGB-Thermal (RGB-T) 画像対が完全に重複しているという批判的な仮定に依存している。
これらの仮定は、センサーの構成によって画像間の部分的な重複しか起こらない現実世界のアプリケーションでは、しばしば成り立たない。
さらに、センサーの故障は情報の損失を1つのモードで引き起こす可能性がある。
本稿では,シーンの少なくとも一部を1つのセンサで取得した場合に,部分重なりとセンサ故障に起因する性能劣化を緩和するために,Hybrid Attention(HA)機構と呼ばれる新しいモジュールを提案する。
実世界のアプリケーションにおける推論時に発生する部分重なりとセンサ故障に対して頑健なRGB-T融合アルゴリズムを提案する。
また、組み込みシステムにおけるリソース制約に対処するために、モバイルフレンドリーなバックボーンを活用しています。
提案手法の性能評価のために, 各種部分重畳とセンサ故障のシナリオをシミュレートして実験を行った。
その結果,本手法は最先端の手法よりも優れており,現実の課題に対処する上での優位性を示している。
関連論文リスト
- Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、複数のセンサの融合を誘導するコンディショントークンを生成する。
MUSESデータセットでは,マルチモーダルパノプティクスセグメンテーションの59.7 PQ,セマンティックセグメンテーションの78.2 mIoU,公開ベンチマークの1位にランクインした。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - IRFusionFormer: Enhancing Pavement Crack Segmentation with RGB-T Fusion and Topological-Based Loss [0.0]
本稿では,RGBと熱データを効果的に統合したフラクチャーセグメンテーションの新しいモデルであるIRFusionFormerを提案する。
本手法は,90.01%のDiceスコアと81.83%のIoUで最先端性能を実現し,各種環境条件におけるロバスト性および精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-09-30T16:35:16Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Breaking Modality Disparity: Harmonized Representation for Infrared and
Visible Image Registration [66.33746403815283]
シーン適応型赤外線と可視画像の登録を提案する。
我々は、異なる平面間の変形をシミュレートするためにホモグラフィーを用いる。
我々は、まず、赤外線と可視画像のデータセットが不一致であることを示す。
論文 参考訳(メタデータ) (2023-04-12T06:49:56Z) - Multi Visual Modality Fall Detection Dataset [4.00152916049695]
転倒は、世界中の高齢者の怪我による死亡の主な原因の1つだ。
効果的なフォールの検出は、合併症や怪我のリスクを減らすことができる。
しかし、通常のRGBカメラは照明条件やプライバシーの懸念によって影響を受ける。
論文 参考訳(メタデータ) (2022-06-25T21:54:26Z) - ReDFeat: Recoupling Detection and Description for Multimodal Feature
Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。
本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。
我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文 参考訳(メタデータ) (2022-05-16T04:24:22Z) - GEM: Glare or Gloom, I Can Still See You -- End-to-End Multimodal Object
Detector [11.161639542268015]
厳しい照明条件下での2次元物体検出のためのセンサ対応マルチモーダル融合戦略を提案する。
本ネットワークは,各センサモダリティの測定信頼性をスカラーウェイトとマスクの形で推定する。
提案手法はFLIR-Thermalデータセット上で既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-24T14:56:37Z) - Frequency Consistent Adaptation for Real World Super Resolution [64.91914552787668]
実シーンにスーパーリゾリューション(SR)法を適用する際に周波数領域の整合性を保証する新しい周波数一貫性適応(FCA)を提案する。
監視されていない画像から劣化カーネルを推定し、対応するLow-Resolution (LR)画像を生成する。
ドメイン一貫性のあるLR-HRペアに基づいて、容易に実装可能な畳み込みニューラルネットワーク(CNN)SRモデルを訓練する。
論文 参考訳(メタデータ) (2020-12-18T08:25:39Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z) - Learning Camera Miscalibration Detection [83.38916296044394]
本稿では,視覚センサ,特にRGBカメラの誤校正検出を学習するためのデータ駆動型アプローチに焦点を当てた。
コントリビューションには、RGBカメラの誤校正基準と、この基準に基づく新しい半合成データセット生成パイプラインが含まれる。
深層畳み込みニューラルネットワークをトレーニングすることにより、カメラ固有のパラメータの再校正が必要か否かを判断するパイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-24T10:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。