論文の概要: Cross-Modality Fusion Transformer for Multispectral Object Detection
- arxiv url: http://arxiv.org/abs/2111.00273v1
- Date: Sat, 30 Oct 2021 15:34:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 05:27:10.871883
- Title: Cross-Modality Fusion Transformer for Multispectral Object Detection
- Title(参考訳): マルチスペクトル物体検出用クロスモダリティ核融合変圧器
- Authors: Fang Qingyun, Han Dapeng and Wang Zhaokui
- Abstract要約: マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multispectral image pairs can provide the combined information, making object
detection applications more reliable and robust in the open world. To fully
exploit the different modalities, we present a simple yet effective
cross-modality feature fusion approach, named Cross-Modality Fusion Transformer
(CFT) in this paper. Unlike prior CNNs-based works, guided by the transformer
scheme, our network learns long-range dependencies and integrates global
contextual information in the feature extraction stage. More importantly, by
leveraging the self attention of the transformer, the network can naturally
carry out simultaneous intra-modality and inter-modality fusion, and robustly
capture the latent interactions between RGB and Thermal domains, thereby
significantly improving the performance of multispectral object detection.
Extensive experiments and ablation studies on multiple datasets demonstrate
that our approach is effective and achieves state-of-the-art detection
performance. Our code and models will be released soon at
https://github.com/DocF/multispectral-object-detection.
- Abstract(参考訳): マルチスペクトル画像ペアは組み合わせた情報を提供し、オープンな世界でオブジェクト検出アプリケーションがより信頼性が高く堅牢になる。
そこで本論文では,CFT (Cross-Modality Fusion Transformer) と題する,単純かつ効果的なクロスモーダル特徴融合手法を提案する。
トランスフォーマー方式による以前のcnnsベースの作業とは異なり、ネットワークは長距離の依存関係を学習し、グローバルコンテキスト情報を特徴抽出段階に統合する。
さらに,変圧器の自己注意を生かして自然にモダリティ内およびモダリティ間融合を行い,RGBと熱ドメイン間の潜伏相互作用を確実に捕捉し,マルチスペクトル物体検出の性能を大幅に向上させることができる。
複数のデータセットに関する広範な実験とアブレーションの研究は、このアプローチが有効であることを示し、最先端の検出性能を達成する。
私たちのコードとモデルは、近くhttps://github.com/docf/multispectral-object-detectionでリリースされる予定です。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Multispectral Fusion for Object Detection with Cyclic Fuse-and-Refine
Blocks [3.6488662460683794]
本稿では,マルチスペクトル特徴量に存在する相補的/一貫性のバランスを利用するニューラルネットワークの中間機能融合法を提案する。
オブジェクト検出のための2つの挑戦的マルチスペクトルデータセットに対する融合法の有効性を評価する。
論文 参考訳(メタデータ) (2020-09-26T18:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。