論文の概要: COXNet: Cross-Layer Fusion with Adaptive Alignment and Scale Integration for RGBT Tiny Object Detection
- arxiv url: http://arxiv.org/abs/2508.09533v1
- Date: Wed, 13 Aug 2025 06:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.78389
- Title: COXNet: Cross-Layer Fusion with Adaptive Alignment and Scale Integration for RGBT Tiny Object Detection
- Title(参考訳): COXNet: RGBTTinyオブジェクト検出のための適応アライメントとスケール統合を備えたクロスレイアフュージョン
- Authors: Peiran Peng, Tingfa Xu, Liqiang Song, Mengqi Zhu, Yuqiang Fang, Jianan Li,
- Abstract要約: マルチモーダル赤緑色サーマル(RGBT)画像における微小物体検出のための新しいフレームワークを提案する。
クロス層核融合モジュールは、セマンティックおよび空間的精度を高めるために、高レベルの可視・低レベルの熱特徴を融合する。
Dynamic Alignment and Scale Refinement Modules corrects cross-modal space misalignment。
GeoShapeの類似度測定は、より優れたローカライゼーションに使用される。
- 参考スコア(独自算出の注目度): 13.236592868442678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting tiny objects in multimodal Red-Green-Blue-Thermal (RGBT) imagery is a critical challenge in computer vision, particularly in surveillance, search and rescue, and autonomous navigation. Drone-based scenarios exacerbate these challenges due to spatial misalignment, low-light conditions, occlusion, and cluttered backgrounds. Current methods struggle to leverage the complementary information between visible and thermal modalities effectively. We propose COXNet, a novel framework for RGBT tiny object detection, addressing these issues through three core innovations: i) the Cross-Layer Fusion Module, fusing high-level visible and low-level thermal features for enhanced semantic and spatial accuracy; ii) the Dynamic Alignment and Scale Refinement module, correcting cross-modal spatial misalignments and preserving multi-scale features; and iii) an optimized label assignment strategy using the GeoShape Similarity Measure for better localization. COXNet achieves a 3.32\% mAP$_{50}$ improvement on the RGBTDronePerson dataset over state-of-the-art methods, demonstrating its effectiveness for robust detection in complex environments.
- Abstract(参考訳): マルチモーダルのRed-Green-Blue-Thermal (RGBT)画像で小さな物体を検出することは、コンピュータビジョン、特に監視、捜索、救助、自律ナビゲーションにおいて重要な課題である。
ドローンベースのシナリオは、空間的不整合、低照度条件、閉塞、散らかった背景などにより、これらの課題を悪化させる。
現在の手法では、可視光度と熱量との相補的な情報を効果的に活用するのに苦労している。
我々は,RGBT小物体検出のための新しいフレームワークであるCOXNetを提案する。
一 高レベル可視・低レベル熱特徴を融合して意味的及び空間的正確性を高めるクロス層核融合モジュール
二 動的アライメント及びスケールリファインメントモジュールであって、クロスモーダルな空間的ミスアライメントを補正し、マルチスケールの特徴を保存すること。
三 ローカライゼーションを改善するため、GeoShape類似度尺度を用いてラベル割り当てを最適化すること。
COXNetは、RGBTDronePersonデータセットに対する3.32\% mAP$_{50}$の改善を実現し、複雑な環境におけるロバスト検出の有効性を実証している。
関連論文リスト
- MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection [12.838872442435527]
UAV画像の小さな物体検出は、探索・救助、交通監視、環境監視といった用途に不可欠である。
既存のマルチスケール融合法は、計算負荷を増し、詳細をぼかすのに役立つ。
本稿では,グローバルコンテキストと局所的な詳細を密結合して検出性能を向上させる統合融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T02:54:25Z) - MSCA-Net:Multi-Scale Context Aggregation Network for Infrared Small Target Detection [0.1759252234439348]
本稿では,3つのキーコンポーネントを統合したMSCA-Netというネットワークアーキテクチャを提案する。
MSEDAは、異なるスケールにわたる情報を適応的に集約するために、マルチスケールのフュージョンアテンション機構を使用している。
PCBAMは相関行列に基づく戦略によりグローバル特徴と局所特徴の相関を捉える。
CABは、それらに重みを割り当て、低レベル情報と高レベル情報を統合することで、重要な特徴の表現を強化する。
論文 参考訳(メタデータ) (2025-03-21T14:42:31Z) - Learning Dynamic Local Context Representations for Infrared Small Target Detection [5.897465234102489]
複雑な背景、低信号/クラッタ比、ターゲットサイズと形状の違いにより、赤外線小目標検出(ISTD)は困難である。
ISTDの動的局所文脈表現を学習する新しい手法であるLCRNetを提案する。
1.65Mのパラメータだけで、LCRNetは最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-23T09:06:27Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。