論文の概要: Efficient Fourier Filtering Network with Contrastive Learning for UAV-based Unaligned Bi-modal Salient Object Detection
- arxiv url: http://arxiv.org/abs/2411.03728v1
- Date: Wed, 06 Nov 2024 07:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:23:27.267283
- Title: Efficient Fourier Filtering Network with Contrastive Learning for UAV-based Unaligned Bi-modal Salient Object Detection
- Title(参考訳): UAVに基づくアンアライメントなバイモーダル・サリエント物体検出のためのコントラスト学習を用いた効率的なフーリエフィルタネットワーク
- Authors: Pengfei Lyu, Pak-Hei Yeung, Xiufei Cheng, Xiaosheng Yu, Chengdong Wu, Jagath C. Rajapakse,
- Abstract要約: 無人航空機(UAV)をベースとしたバイモーダル・サリエント・オブジェクト検出(BSOD)は、不整合RGBと熱画像ペアの相補的な手がかりを利用して、サリエント・オブジェクトをシーンに分割することを目的としている。
本稿では,実時間と高精度の両性能を両立させるコントラスト学習による効率的なフーリエフィルタネットワークを提案する。
提案モデルであるAlignSalはパラメータ数を70.0%削減し,浮動小数点演算を49.4%削減し,推論速度を152.5%向上させる。
- 参考スコア(独自算出の注目度): 8.12311871820753
- License:
- Abstract: Unmanned aerial vehicle (UAV)-based bi-modal salient object detection (BSOD) aims to segment salient objects in a scene utilizing complementary cues in unaligned RGB and thermal image pairs. However, the high computational expense of existing UAV-based BSOD models limits their applicability to real-world UAV devices. To address this problem, we propose an efficient Fourier filter network with contrastive learning that achieves both real-time and accurate performance. Specifically, we first design a semantic contrastive alignment loss to align the two modalities at the semantic level, which facilitates mutual refinement in a parameter-free way. Second, inspired by the fast Fourier transform that obtains global relevance in linear complexity, we propose synchronized alignment fusion, which aligns and fuses bi-modal features in the channel and spatial dimensions by a hierarchical filtering mechanism. Our proposed model, AlignSal, reduces the number of parameters by 70.0%, decreases the floating point operations by 49.4%, and increases the inference speed by 152.5% compared to the cutting-edge BSOD model (i.e., MROS). Extensive experiments on the UAV RGB-T 2400 and three weakly aligned datasets demonstrate that AlignSal achieves both real-time inference speed and better performance and generalizability compared to sixteen state-of-the-art BSOD models across most evaluation metrics. In addition, our ablation studies further verify AlignSal's potential in boosting the performance of existing aligned BSOD models on UAV-based unaligned data. The code is available at: https://github.com/JoshuaLPF/AlignSal.
- Abstract(参考訳): 無人航空機(UAV)をベースとしたバイモーダル・サリエント・オブジェクト検出(BSOD)は、不整合RGBと熱画像ペアの相補的な手がかりを利用して、サリエント・オブジェクトをシーンに分割することを目的としている。
しかしながら、既存のUAVベースのBSODモデルによる高い計算コストは、実際のUAVデバイスへの適用性を制限している。
この問題に対処するために,実時間と高精度の両性能を両立するコントラスト学習を用いた効率的なフーリエフィルタネットワークを提案する。
具体的には、まずセマンティック・コントラッシブ・アライメント・ロスを設計し、2つのモダリティをセマンティック・レベルで整列させる。
第二に、線形複雑性のグローバルな関連性を得る高速フーリエ変換に着想を得て、階層的なフィルタリング機構によりチャネルと空間の両モード特徴を整列し、融合する同期アライメント融合を提案する。
提案モデルであるAlignSalは,パラメータ数を70.0%削減し,浮動小数点演算を49.4%削減し,最先端のBSODモデル(MROS)と比較して推定速度を152.5%向上させる。
UAV RGB-T 2400と3つの弱い整列データセットに関する大規模な実験は、AlignSalがリアルタイム推論速度と性能と一般化性の両方を達成することを示した。
さらに,我々のアブレーション研究は,UAVに基づく非アライメントデータ上での既存のアライメントBSODモデルの性能向上におけるAlignSalの可能性をさらに検証した。
コードは、https://github.com/JoshuaLPF/AlignSal.comで入手できる。
関連論文リスト
- DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition [4.678150356894011]
災害評価における航空画像処理のための人工知能(AI)モデルと無人航空機の統合には、例外的な精度、計算効率、リアルタイム処理能力が必要である。
伝統的に、畳み込みニューラルネットワーク(CNN)は局所的特徴抽出の効率を示すが、大域的文脈解釈の可能性によって制限される。
視覚変換器(ViT)は、注意機構を用いることで、グローバルな文脈解釈の改善を約束するが、それでもUAVベースの災害対応アプリケーションでは未検討である。
論文 参考訳(メタデータ) (2024-10-17T15:25:13Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Revisiting Stereo Triangulation in UAV Distance Estimation [5.656973345209692]
UAV距離推定のためのUAVDEデータセットを構築し,UWBセンサを用いて2つのUAV間距離を求める。
本研究では,観測位置と実際の位置とのオフセットを直接予測できる新しい位置補正モジュールを提案する。
我々はUAVDEに関する広範囲な実験を行い,本手法は強力なベースライン上での大幅な性能向上を実現することができる。
論文 参考訳(メタデータ) (2023-06-15T08:22:05Z) - Drone Referring Localization: An Efficient Heterogeneous Spatial Feature Interaction Method For UAV Self-Localization [22.94589565476653]
我々は、Drone Referring Localization(DRL)と呼ばれる、効率的な異種空間特徴相互作用法を提案する。
異なるデータソースを分離して扱う従来の方法とは異なり、DRLは異種特徴の学習可能な相互作用を促進する。
従来のIR法と比較して、DRLはより優れたローカライズ精度(MA@20 + 9.4%)を実現し、計算時間(1/7)とストレージオーバーヘッド(2/3)を大幅に削減した。
論文 参考訳(メタデータ) (2022-08-13T03:25:50Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency
Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。
本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。
実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文 参考訳(メタデータ) (2020-12-30T11:53:27Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z) - Federated Learning in the Sky: Joint Power Allocation and Scheduling
with UAV Swarms [98.78553146823829]
無人航空機(UAV)は様々なタスクを実行するために機械学習(ML)を利用する必要がある。
本稿では,UAVスワム内に分散学習(FL)アルゴリズムを実装するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T14:04:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。