論文の概要: MO R-CNN: Multispectral Oriented R-CNN for Object Detection in Remote Sensing Image
- arxiv url: http://arxiv.org/abs/2509.16957v1
- Date: Sun, 21 Sep 2025 07:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.054419
- Title: MO R-CNN: Multispectral Oriented R-CNN for Object Detection in Remote Sensing Image
- Title(参考訳): MO R-CNN:リモートセンシング画像における物体検出のためのマルチスペクトル指向R-CNN
- Authors: Leiyu Wang, Biao Jin, Feng Huang, Liqiong Chen, Zhengyong Wang, Xiaohai He, Honggang Chen,
- Abstract要約: 異種特徴抽出ネットワーク(HFEN)、単一モダリティ監視(SMS)、条件ベースマルチモーダルラベル融合(CMLF)を特徴とするマルチスペクトル指向検出のための軽量フレームワークを提案する。
DroneVehicle、VEDAI、OGSODデータセットの実験は、我々の手法の優位性を証明している。
- 参考スコア(独自算出の注目度): 16.689111713505486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Oriented object detection for multi-spectral imagery faces significant challenges due to differences both within and between modalities. Although existing methods have improved detection accuracy through complex network architectures, their high computational complexity and memory consumption severely restrict their performance. Motivated by the success of large kernel convolutions in remote sensing, we propose MO R-CNN, a lightweight framework for multi-spectral oriented detection featuring heterogeneous feature extraction network (HFEN), single modality supervision (SMS), and condition-based multimodal label fusion (CMLF). HFEN leverages inter-modal differences to adaptively align, merge, and enhance multi-modal features. SMS constrains multi-scale features and enables the model to learn from multiple modalities. CMLF fuses multimodal labels based on specific rules, providing the model with a more robust and consistent supervisory signal. Experiments on the DroneVehicle, VEDAI and OGSOD datasets prove the superiority of our method. The source code is available at:https://github.com/Iwill-github/MORCNN.
- Abstract(参考訳): マルチスペクトル画像のオブジェクト指向物体検出は、モダリティの内外差による大きな課題に直面している。
既存の手法では複雑なネットワークアーキテクチャによって検出精度が向上しているが、その高い計算複雑性とメモリ消費は性能を著しく制限している。
リモートセンシングにおけるカーネルの大規模な畳み込みの成功に触発されたMO R-CNNは、異種特徴抽出ネットワーク(HFEN)、単一モダリティ監視(SMS)、条件ベースマルチモーダルラベル融合(CMLF)を特徴とするマルチスペクトル指向検出のための軽量フレームワークである。
HFENは、モーダル間の違いを利用して、適応的にアライメントし、マージし、マルチモーダル機能を強化する。
SMSはマルチスケール機能を制約し、モデルが複数のモダリティから学習できるようにする。
CMLFは特定のルールに基づいてマルチモーダルラベルを融合し、より堅牢で一貫した監視信号を提供する。
DroneVehicle、VEDAI、OGSODデータセットの実験は、我々の手法の優位性を証明している。
ソースコードはhttps://github.com/Iwill-github/MORCNNで公開されている。
関連論文リスト
- Graph-Based Uncertainty Modeling and Multimodal Fusion for Salient Object Detection [12.743278093269325]
動的不確実性伝播とマルチモーダル協調推論ネットワーク(DUP-MCRNet)を提案する。
DUGCは空間意味距離に基づいて構築されたスパースグラフを通じて層間の不確実性を伝播するように設計されている。
MCFは学習可能なモダリティゲーティングウェイトを使用して、RGB、深さ、エッジの特徴の注意マップを重み付けする。
論文 参考訳(メタデータ) (2025-08-28T04:31:48Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - RegistrationMamba: A Mamba-based Registration Framework Integrating Multi-Expert Feature Learning for Cross-Modal Remote Sensing Images [39.5745769925092]
クロスモーダルリモートセンシング画像(CRSI)の登録は、マルチモーダル画像アプリケーションにとって重要である。
既存の方法は、主に畳み込みニューラルネットワーク(CNN)またはトランスフォーマーアーキテクチャを採用して、登録のための識別的特徴を抽出する。
本稿では,マルチエキスパート機能学習を統合した状態空間モデル(SSM)に基づく新しいMambaアーキテクチャであるRegistrationMambaを提案する。
論文 参考訳(メタデータ) (2025-07-06T13:59:51Z) - Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。