論文の概要: Tri-Modal Fusion Transformers for UAV-based Object Detection
- arxiv url: http://arxiv.org/abs/2604.16630v1
- Date: Fri, 17 Apr 2026 18:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.112125
- Title: Tri-Modal Fusion Transformers for UAV-based Object Detection
- Title(参考訳): UAVによる物体検出のための3モード核融合変換器
- Authors: Craig Iaboni, Pramod Abichandani,
- Abstract要約: 本稿では、RGB、サーマル、イベントデータをデュアルストリーム階層型視覚変換器で処理するトリオモーダル・フレームワークを提案する。
10,489フレームのUAVデータセットを導入し,RGB-熱対流と24,223の注釈付き車両を同期・調整した。
- 参考スコア(独自算出の注目度): 1.338174941551702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable UAV object detection requires robustness to illumination changes, motion blur, and scene dynamics that suppress RGB cues. Thermal long-wave infrared (LWIR) sensing preserves contrast in low light, and event cameras retain microsecond-level temporal edges, but integrating all three modalities in a unified detector has not been systematically studied. We present a tri-modal framework that processes RGB, thermal, and event data with a dual-stream hierarchical vision transformer. At selected encoder depths, a Modality-Aware Gated Exchange (MAGE) applies inter-sensor channel and spatial gating, and a Bidirectional Token Exchange (BiTE) module performs bidirectional token-level attention with depthwise-pointwise refinement, producing resolution-preserving fused maps for a standard feature pyramid and two-stage detector. We introduce a 10,489-frame UAV dataset with synchronized and pre-aligned RGB-thermal-event streams and 24,223 annotated vehicles across day and night flights. Through 61 controlled ablations, we evaluate fusion placement, mechanism (baseline MAGE+BiTE, CSSA, GAFF), modality subsets, and backbone capacity. Tri-modal fusion improves over all dual-modal baselines, with fusion depth having a significant effect and a lightweight CSSA variant recovering most of the benefit at minimal cost. This work provides the first systematic benchmark and modular backbone for tri-modal UAV-based object detection.
- Abstract(参考訳): 信頼性の高いUAVオブジェクト検出には、照度の変化、動きのぼかし、RGBキューを抑制するシーンダイナミクスに対する堅牢性が必要である。
熱長波長赤外線(LWIR)検出は低光のコントラストを保ち、イベントカメラはマイクロ秒レベルの時間エッジを保持するが、3つのモードをすべて統合検出器に統合することは体系的に研究されていない。
本稿では、RGB、サーマル、イベントデータをデュアルストリーム階層型視覚変換器で処理するトリオモーダル・フレームワークを提案する。
選択されたエンコーダ深さでは、Modality-Aware Gated Exchange (MAGE) がインターセンサチャネルと空間ゲーティングを施し、Bidirectional Token Exchange (BiTE) モジュールが双方向のトークンレベルの注意を深度的に高め、標準的な特徴ピラミッドと2段検出器のための分解能保存された融合マップを生成する。
我々は1,489フレームのUAVデータセットを導入し、昼夜の飛行でRGB熱水噴出ストリームと24,223の注釈付き車両を同期・調整した。
61のアブリゲーションを通し,融合配置,機構(ベースラインMAGE+BiTE,CSSA,GAFF),モダリティサブセット,バックボーン容量を評価した。
トリモーダル核融合は全てのデュアルモーダル基底線を改良し、核融合深度は大きな効果を持ち、軽量なCSSA変種は最小限のコストで利益を回復する。
この研究は、トリモーダルUAVベースのオブジェクト検出のための最初の体系的なベンチマークとモジュラーバックボーンを提供する。
関連論文リスト
- DEPFusion: Dual-Domain Enhancement and Priority-Guided Mamba Fusion for UAV Multispectral Object Detection [6.4402018224356015]
DEPFusionというフレームワークがUAVマルチスペクトル物体検出のために提案されている。
デュアルドメイン強化(DDE)と優先誘導マンバ核融合(PGMF)から構成される。
DroneVehicleとVEDAIデータセットの実験は、DEPFusionが最先端の手法で優れたパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-09-09T01:51:57Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。