論文の概要: Multispectral Pedestrian Detection via Reference Box Constrained Cross
Attention and Modality Balanced Optimization
- arxiv url: http://arxiv.org/abs/2302.00290v1
- Date: Wed, 1 Feb 2023 07:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 17:53:21.508719
- Title: Multispectral Pedestrian Detection via Reference Box Constrained Cross
Attention and Modality Balanced Optimization
- Title(参考訳): 参照ボックス制約による多スペクトル歩行者検出とモダリティバランス最適化
- Authors: Yinghui Xing, Song Wang, Guoqiang Liang, Qingyi Li, Xiuwei Zhang,
Shizhou Zhang, Yanning Zhang
- Abstract要約: マルチスペクトル歩行者検出TRansformerは変形可能なDETRをマルチモーダルパラダイムに拡張する。
MS-DETRは、挑戦的なKAISTとCVC-14ベンチマークデータセットよりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 39.00593263036152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral pedestrian detection is an important task for many
around-the-clock applications, since the visible and thermal modalities can
provide complementary information especially under low light conditions. To
reduce the influence of hand-designed components in available multispectral
pedestrian detectors, we propose a MultiSpectral pedestrian DEtection
TRansformer (MS-DETR), which extends deformable DETR to multi-modal paradigm.
In order to facilitate the multi-modal learning process, a Reference box
Constrained Cross-Attention (RCCA) module is firstly introduced to the
multi-modal Transformer decoder, which takes fusion branch together with the
reference boxes as intermediaries to enable the interaction of visible and
thermal modalities. To further balance the contribution of different
modalities, we design a modality-balanced optimization strategy, which aligns
the slots of decoders by adaptively adjusting the instance-level weight of
three branches. Our end-to-end MS-DETR shows superior performance on the
challenging KAIST and CVC-14 benchmark datasets.
- Abstract(参考訳): 可視・熱変調は特に低照度条件下で相補的な情報を提供することができるため、多スペクトル歩行者検出は、多くの時空応用にとって重要な課題である。
利用可能なマルチスペクトル歩行者検出器における手動設計部品の影響を低減するため,変形可能なDETRをマルチモーダルパラダイムに拡張したマルチスペクトル歩行者検出TRansformer (MS-DETR)を提案する。
マルチモーダル学習プロセスを容易にするために、まず、参照ボックスと参照ボックスとの融合分岐を仲介するマルチモーダルトランスデコーダに、制約付きクロスアテンション(rcca)モジュールを導入して、可視性と熱的モダリティの相互作用を可能にする。
そこで本研究では,3枝のインスタンスレベルの重みを適応的に調整することで,デコーダのスロットを整列させるモダリティバランス最適化戦略を設計する。
我々のエンドツーエンドのMS-DETRは、挑戦的なKAISTとCVC-14ベンチマークデータセットよりも優れた性能を示している。
関連論文リスト
- DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Multimodal Transformer Using Cross-Channel attention for Object
Detection in Remote Sensing Images [1.8160945635344523]
オブジェクト検出のためのマルチソースリモートセンシングデータを探索するマルチモーダルトランスフォーマーを提案する。
チャネルワイズ接続によるマルチモーダル入力を直接結合するのではなく,チャネル間アテンションモジュールを提案する。
このモジュールは異なるチャネル間の関係を学習し、コヒーレントなマルチモーダル入力の構築を可能にする。
また、固定次元を維持しつつ、非シフトブロックに畳み込み層を組み込んだSwin変換器に基づく新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。