論文の概要: Cross-Modality Proposal-guided Feature Mining for Unregistered
RGB-Thermal Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2308.12111v1
- Date: Wed, 23 Aug 2023 12:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:19:45.453312
- Title: Cross-Modality Proposal-guided Feature Mining for Unregistered
RGB-Thermal Pedestrian Detection
- Title(参考訳): 登録されていないRGBサーマルペデストリアン検出のためのクロスモダリティ提案誘導機能マイニング
- Authors: Chao Tian, Zikun Zhou, Yuqing Huang, Gaojun Li, and Zhenyu He
- Abstract要約: 本稿では,RGBと熱画像中の2つの歩行者位置をそれぞれ予測する未登録RGB-T歩行者検出のための新しいパラダイムを提案する。
具体的には、RGB-T画像対が不整合であっても、歩行者を2つのモードで表現する2つの正確な融合特徴を抽出する、相互モダリティ提案誘導機能マイニング(CPFM)機構を提案する。
CPFM機構を用いて,CPFM機構によって抽出された核融合特性に基づいて,2つのモードにおける2つの歩行者位置を推定する2ストリーム密度検出器を構築した。
- 参考スコア(独自算出の注目度): 8.403885039441263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-Thermal (RGB-T) pedestrian detection aims to locate the pedestrians in
RGB-T image pairs to exploit the complementation between the two modalities for
improving detection robustness in extreme conditions. Most existing algorithms
assume that the RGB-T image pairs are well registered, while in the real world
they are not aligned ideally due to parallax or different field-of-view of the
cameras. The pedestrians in misaligned image pairs may locate at different
positions in two images, which results in two challenges: 1) how to achieve
inter-modality complementation using spatially misaligned RGB-T pedestrian
patches, and 2) how to recognize the unpaired pedestrians at the boundary. To
deal with these issues, we propose a new paradigm for unregistered RGB-T
pedestrian detection, which predicts two separate pedestrian locations in the
RGB and thermal images, respectively. Specifically, we propose a cross-modality
proposal-guided feature mining (CPFM) mechanism to extract the two precise
fusion features for representing the pedestrian in the two modalities, even if
the RGB-T image pair is unaligned. It enables us to effectively exploit the
complementation between the two modalities. With the CPFM mechanism, we build a
two-stream dense detector; it predicts the two pedestrian locations in the two
modalities based on the corresponding fusion feature mined by the CPFM
mechanism. Besides, we design a data augmentation method, named Homography, to
simulate the discrepancy in scales and views between images. We also
investigate two non-maximum suppression (NMS) methods for post-processing.
Favorable experimental results demonstrate the effectiveness and robustness of
our method in dealing with unregistered pedestrians with different shifts.
- Abstract(参考訳): RGB-Thermal(RGB-T)歩行者検出は、RGB-T画像ペア内の歩行者を見つけることを目的として、2つのモード間の補完を利用して、極端な条件下でのロバスト性の検出を改善する。
既存のアルゴリズムの多くは、rgb-t画像ペアはよく登録されていると仮定しているが、現実世界ではパララックスやカメラの異なる視野のために理想的に整列していない。
ミスアライメントされた画像ペアの歩行者は、2つの画像の異なる位置にある可能性があるため、2つの課題となる。
1)空間的不整合RGB-T歩行者パッチを用いたモダリティ間補完の実現方法と課題
2)未舗装の歩行者を境界線で認識する方法。
これらの問題に対処するために、RGBと熱画像の2つの別々の歩行者位置を予測する未登録RGB-T歩行者検出のための新しいパラダイムを提案する。
具体的には,RGB-T画像対が不整合である場合でも,歩行者を2つのモードで表現する2つの正確な融合特徴を抽出するCPFM機構を提案する。
これにより、2つのモダリティ間の補完を効果的に活用できます。
CPFM機構を用いて,CPFM機構によって抽出された核融合特性に基づいて,2つのモードにおける2つの歩行者位置を推定する2ストリーム密度検出器を構築した。
さらに,画像間のスケールとビューの相違をシミュレートするために,ホモグラフィと呼ばれるデータ拡張法を設計する。
また,後処理のための非最大抑制法(nms)を2つ検討した。
好適な実験により,異変のある未登録歩行者に対して,提案手法の有効性とロバスト性が示された。
関連論文リスト
- HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Breaking Modality Disparity: Harmonized Representation for Infrared and
Visible Image Registration [66.33746403815283]
シーン適応型赤外線と可視画像の登録を提案する。
我々は、異なる平面間の変形をシミュレートするためにホモグラフィーを用いる。
我々は、まず、赤外線と可視画像のデータセットが不一致であることを示す。
論文 参考訳(メタデータ) (2023-04-12T06:49:56Z) - Learning Dual-Fused Modality-Aware Representations for RGBD Tracking [67.14537242378988]
従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加は、ターゲットとバックグラウンドの干渉を効果的に解決することができる。
既存のRGBDトラッカーでは2つのモードを別々に使用しており、特に有用な共有情報は無視されている。
DMTracker(Dual-fused Modality-aware Tracker)を提案する。DMTrackerは,RGBDのロバストな追跡のために,対象対象物の情報的および識別的表現を学習することを目的としている。
論文 参考訳(メタデータ) (2022-11-06T07:59:07Z) - Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection [10.460296317901662]
空中RGB-IR画像における検出は, クロスモーダルな不整合問題に悩まされている。
本稿では,TSRA (Translation-Scale-Rotation Alignment) モジュールを提案する。
TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)は、空中画像におけるRGB-IRオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2022-09-28T03:06:18Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Fast Road Segmentation via Uncertainty-aware Symmetric Network [15.05244258071472]
従来の手法では、両方の方法で高い推論速度と高い精度を達成できない。
RGBと深度データの異なる特性は十分に明らかにされておらず、予測された道路の信頼性を制限している。
本稿では,RGBと深度データを完全に融合させることで,速度と精度のトレードオフを実現するための不確実性対応対称ネットワーク(USNet)を提案する。
論文 参考訳(メタデータ) (2022-03-09T06:11:29Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z) - Cross-Modality Paired-Images Generation for RGB-Infrared Person
Re-Identification [29.92261627385826]
本稿では,大域的セットレベルと細粒度インスタンスレベルのアライメントを両立させることを提案する。
本手法は,モダリティに特有な特徴を明示的に除去し,モダリティの変動を低減できる。
我々のモデルはランク1とmAPで9.2%と7.7%を得ることができる。
論文 参考訳(メタデータ) (2020-02-10T22:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。