論文の概要: Modality-Decoupled RGB-Thermal Object Detector via Query Fusion
- arxiv url: http://arxiv.org/abs/2601.08458v1
- Date: Tue, 13 Jan 2026 11:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.173134
- Title: Modality-Decoupled RGB-Thermal Object Detector via Query Fusion
- Title(参考訳): クエリフュージョンによるモダリティ分離RGB熱物体検出器
- Authors: Chao Tian, Zikun Zhou, Chao Yang, Guoqing Zhu, Fu'an Zhong, Zhenyu He,
- Abstract要約: 本稿では,モダリティ補間と分離のバランスをとるために,MDQF (Query Fusion) を用いたモダリティ分離RGB-T検出フレームワークを提案する。
提案手法は既存のRGB-T検出器に優れた性能を提供し,モダリティ独立性を向上する。
- 参考スコア(独自算出の注目度): 15.717929078660227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advantage of RGB-Thermal (RGB-T) detection lies in its ability to perform modality fusion and integrate cross-modality complementary information, enabling robust detection under diverse illumination and weather conditions. However, under extreme conditions where one modality exhibits poor quality and disturbs detection, modality separation is necessary to mitigate the impact of noise. To address this problem, we propose a Modality-Decoupled RGB-T detection framework with Query Fusion (MDQF) to balance modality complementation and separation. In this framework, DETR-like detectors are employed as separate branches for the RGB and TIR images, with query fusion interspersed between the two branches in each refinement stage. Herein, query fusion is performed by feeding the high-quality queries from one branch to the other one after query selection and adaptation. This design effectively excludes the degraded modality and corrects the predictions using high-quality queries. Moreover, the decoupled framework allows us to optimize each individual branch with unpaired RGB or TIR images, eliminating the need for paired RGB-T data. Extensive experiments demonstrate that our approach delivers superior performance to existing RGB-T detectors and achieves better modality independence.
- Abstract(参考訳): RGB-Thermal (RGB-T) 検出の利点は、多彩な照明と気象条件下で堅牢な検出を可能にするために、モジュラリティ融合を実行し、モジュール間補完情報を統合できることにある。
しかし、1つのモードが品質を低下させ、検出を妨害する極端な条件下では、ノイズの影響を軽減するためにモード分離が必要である。
この問題に対処するために,MDQF (Query Fusion) を用いたモダリティ分離RGB-T検出フレームワークを提案し,モダリティ補間と分離のバランスをとる。
このフレームワークでは、DECRのような検出器をRGBとTIRの分離分岐として使用し、各精製段階では2つのブランチ間でクエリ融合を行う。
ここで、クエリ選択および適応後、高品質なクエリを一方のブランチから他方のブランチに供給することで、クエリ融合を行う。
この設計は、劣化したモダリティを効果的に排除し、高品質なクエリを使って予測を修正する。
さらに、分離されたフレームワークにより、各ブランチを未ペアのRGBまたはTIRイメージで最適化することができ、ペアのRGB-Tデータを必要としない。
大規模な実験により,既存のRGB-T検出器よりも優れた性能を示し,モダリティ独立性を実現している。
関連論文リスト
- Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Removal then Selection: A Coarse-to-Fine Fusion Perspective for RGB-Infrared Object Detection [20.12812979315803]
可視光(RGB)と熱赤外(IR)画像の両方を利用した物体検出が注目されている。
既存の多くのマルチモーダルオブジェクト検出手法は、RGBとIR画像をディープニューラルネットワークに直接入力する。
両モダリティから特徴を浄化・融合する新しい粗大な視点を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:42Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。
本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。
一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文 参考訳(メタデータ) (2022-10-09T13:50:12Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。