論文の概要: Bridging the RGB-IR Gap: Consensus and Discrepancy Modeling for Text-Guided Multispectral Detection
- arxiv url: http://arxiv.org/abs/2604.11234v1
- Date: Mon, 13 Apr 2026 09:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.458118
- Title: Bridging the RGB-IR Gap: Consensus and Discrepancy Modeling for Text-Guided Multispectral Detection
- Title(参考訳): RGB-IRギャップのブリッジ:テキスト誘導マルチスペクトル検出のための合意と離散性モデリング
- Authors: Jiaqi Wu, Zhen Wang, Enhao Huang, Kangqing Shen, Yulin Wang, Yang Yue, Yifan Pu, Gao Huang,
- Abstract要約: マルチスペクトルオブジェクト検出のためのバイサポートモデリングを用いたセマンティックブリッジ融合フレームワークを提案する。
具体的には、テキストを共有セマンティックブリッジとして使用して、RGBおよびIR応答を統一されたカテゴリ条件下で整列させる。
RGB-IR相互作用の証拠を正規のコンセンサス支援と相補的な相補的な相補性支援に定式化する。
- 参考スコア(独自算出の注目度): 45.62297680190076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided multispectral object detection uses text semantics to guide semantic-aware cross-modal interaction between RGB and IR for more robust perception. However, notable limitations remain: (1) existing methods often use text only as an auxiliary semantic enhancement signal, without exploiting its guiding role to bridge the inherent granularity asymmetry between RGB and IR; and (2) conventional data-driven attention-based fusion tends to emphasize stable consensus while overlooking potentially valuable cross-modal discrepancies. To address these issues, we propose a semantic bridge fusion framework with bi-support modeling for multispectral object detection. Specifically, text is used as a shared semantic bridge to align RGB and IR responses under a unified category condition, while the recalibrated thermal semantic prior is projected onto the RGB branch for semantic-level mapping fusion. We further formulate RGB-IR interaction evidence into the regular consensus support and the complementary discrepancy support that contains potentially discriminative cues, and introduce them into fusion via dynamic recalibration as a structured inductive bias. In addition, we design a bidirectional semantic alignment module for closed-loop vision-text guidance enhancement. Extensive experiments demonstrate the effectiveness of the proposed fusion framework and its superior detection performance on multispectral benchmarks. Code is available at https://github.com/zhenwang5372/Bridging-RGB-IR-Gap.
- Abstract(参考訳): テキスト誘導型マルチスペクトルオブジェクト検出では、テキストセマンティクスを用いて、RGBとIR間のセマンティック・アウェア・クロスモーダル相互作用をガイドし、より堅牢な知覚を実現する。
しかし,(1) 既存の手法では, RGB と IR の固有粒度非対称性を橋渡しする役割を活かさずに, テキストを補助的意味増強信号としてのみ使用する場合が多く, (2) 従来のデータ駆動型アテンションベース融合は, 潜在的に価値のある横断的不一致を克服しつつ, 安定したコンセンサスを強調する傾向にある。
これらの問題に対処するために,多スペクトル物体検出のためのバイサポートモデリングを用いた意味橋梁融合フレームワークを提案する。
具体的には、テキストは、RGBとIR応答を統一されたカテゴリ条件で整合させるための共有セマンティックブリッジとして使用され、リカバリされた熱セマンティック先行は、意味レベルのマッピング融合のためにRGBブランチに投影される。
我々はさらに、RGB-IR相互作用の証拠を正規のコンセンサス支援と、潜在的な差別的手がかりを含む相補的な相補的不一致支援に定式化し、それらを構造的帰納バイアスとして動的再校正による融合に導入する。
さらに、閉ループ視覚テキスト誘導強化のための双方向セマンティックアライメントモジュールを設計する。
広汎な実験により,マルチスペクトルベンチマークにおける核融合フレームワークの有効性と優れた検出性能が示された。
コードはhttps://github.com/zhenwang5372/Bridging-RGB-IR-Gapで入手できる。
関連論文リスト
- Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation [18.450662919776757]
本稿では,エッジ認識型セマンティック・コンセンサス・フレームワークを提案する。
提案手法は,提案したDERS-XSに対して2.55% mIoUで最先端の手法である。
論文 参考訳(メタデータ) (2025-11-11T14:00:27Z) - RGBX-DiffusionDet: A Framework for Multi-Modal RGB-X Object Detection Using DiffusionDet [0.0]
RGBX-DiffusionDetはDiffusionDetモデルを拡張するオブジェクト検出フレームワークである。
適応型マルチモーダルエンコーダにより、不均一な2Dデータ(X)をRGB画像と融合する。
論文 参考訳(メタデータ) (2025-05-05T11:39:51Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - DEYOLO: Dual-Feature-Enhancement YOLO for Cross-Modality Object Detection [5.946464547429392]
照明の悪い環境での物体検出は、通常RGB画像でははっきりと見えないため、難しい作業である。
本稿では,デュアルエンハンスメントに基づくオブジェクト検出ネットワークDEYOLOを提案する。
提案手法は,SOTAオブジェクト検出アルゴリズムよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2024-12-06T10:39:11Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。