論文の概要: Weakly Aligned Feature Fusion for Multimodal Object Detection
- arxiv url: http://arxiv.org/abs/2204.09848v1
- Date: Thu, 21 Apr 2022 02:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:19:34.627606
- Title: Weakly Aligned Feature Fusion for Multimodal Object Detection
- Title(参考訳): マルチモーダル物体検出のための弱アライメント機能融合
- Authors: Lu Zhang, Zhiyong Liu, Xiangyu Zhu, Zhan Song, Xu Yang, Zhen Lei, Hong
Qiao
- Abstract要約: マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
- 参考スコア(独自算出の注目度): 52.15436349488198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To achieve accurate and robust object detection in the real-world scenario,
various forms of images are incorporated, such as color, thermal, and depth.
However, multimodal data often suffer from the position shift problem, i.e.,
the image pair is not strictly aligned, making one object has different
positions in different modalities. For the deep learning method, this problem
makes it difficult to fuse multimodal features and puzzles the convolutional
neural network (CNN) training. In this article, we propose a general multimodal
detector named aligned region CNN (AR-CNN) to tackle the position shift
problem. First, a region feature (RF) alignment module with adjacent similarity
constraint is designed to consistently predict the position shift between two
modalities and adaptively align the cross-modal RFs. Second, we propose a novel
region of interest (RoI) jitter strategy to improve the robustness to
unexpected shift patterns. Third, we present a new multimodal feature fusion
method that selects the more reliable feature and suppresses the less useful
one via feature reweighting. In addition, by locating bounding boxes in both
modalities and building their relationships, we provide novel multimodal
labeling named KAIST-Paired. Extensive experiments on 2-D and 3-D object
detection, RGB-T, and RGB-D datasets demonstrate the effectiveness and
robustness of our method.
- Abstract(参考訳): 実世界のシナリオにおいて、正確でロバストな物体検出を実現するために、色、熱、深さなどの様々な画像が組み込まれている。
しかし、マルチモーダルデータはしばしば位置シフトの問題に悩まされる。つまり、画像対は厳密に整列せず、1つのオブジェクトが異なるモードで異なる位置を持つようにする。
ディープラーニング手法では,マルチモーダルな特徴を融合させることが困難であり,畳み込みニューラルネットワーク(CNN)のトレーニングが難解である。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
まず、隣接した類似性制約を持つ領域特徴(RF)アライメントモジュールを、2つのモード間の位置シフトを一貫して予測し、クロスモーダルRFを適応的にアライメントするように設計する。
第2に,予期しないシフトパターンに対するロバスト性を改善するために,新たなroiジッタ戦略を提案する。
第3に,より信頼性の高い機能を選択し,機能の再重み付けによってより有用でない機能を抑制する,新しいマルチモーダル機能融合手法を提案する。
さらに, 境界ボックスの配置と関係性の構築により, KAIST-Pairedという新しいマルチモーダルラベルを提供する。
2次元および3次元オブジェクト検出、RGB-T、RGB-Dデータセットに関する大規模な実験により、本手法の有効性とロバスト性を実証した。
関連論文リスト
- Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient
Object Detection [1.002712867721496]
RGB-Dに基づく手法は、多モード特徴融合の不整合性とマルチスケール特徴集合の不整合に悩まされることが多い。
マルチモーダル・マルチスケール改良ネットワーク(M2RNet)を提案する。
このネットワークには3つの重要なコンポーネントが紹介されている。
論文 参考訳(メタデータ) (2021-09-16T12:15:40Z) - Multi-Modal Pedestrian Detection with Large Misalignment Based on
Modal-Wise Regression and Multi-Modal IoU [15.59089347915245]
複数のモードを組み合わせることで、照明条件の悪い状況下で正確な歩行者検出が可能になる。
組み合わせの使用に必須の仮定は、2つのモダリティの間に弱いミスアライメントが存在しないか、あるいは単に存在しないことである。
本稿では,大規模な不整合に対して頑健なマルチモーダル高速RCNNを提案する。
論文 参考訳(メタデータ) (2021-07-23T12:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。