論文の概要: BMCR: Adaptive Backbone Module Composition via Reinforcement Learning for Remote Sensing Object Detection
- arxiv url: http://arxiv.org/abs/2606.05586v1
- Date: Thu, 04 Jun 2026 02:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.484284
- Title: BMCR: Adaptive Backbone Module Composition via Reinforcement Learning for Remote Sensing Object Detection
- Title(参考訳): BMCR:リモートセンシング対象検出のための強化学習による適応的バックボーンモジュール構成
- Authors: Wenlin Liu, Xikun Hu, Ping Zhong,
- Abstract要約: オブジェクト検出検出のための強化学習(BMCR)によるバックボーンモジュール構成を提案する。
BMCRは、既製のCNNとViTのバックボーンから分解された再利用可能なモジュールから入力適応推論パスを組み立てる。
BMCRは, それぞれ79.31%, 73.41%, 71.86% mAPを達成し, 強い静的および動的ベースラインを2.5ポイント超えた。
- 参考スコア(独自算出の注目度): 4.303688954031907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In remote sensing object detection, Convolutional Neural Networks (CNNs) excel at capturing local details while Vision Transformers (ViTs) are better at global context modeling. However, existing detectors typically rely on a single fixed backbone or a manually designed hybrid architecture, and thus fail to adaptively exploit these complementary strengths across inputs of diverse complexity. To address this limitation, we propose Backbone Module Composition via Reinforcement Learning (BMCR). BMCR dynamically assembles input-adaptive inference paths from reusable modules decomposed from off-the-shelf CNN and ViT backbones. To enable such cross-family composition, we first construct an extensible module toolbox. Specifically, we decompose representative CNN and ViT backbones into reusable functional modules and encapsulate each module with explicit structural, semantic, and computational metadata for compatibility-aware assembly. To bridge the gap between grid-based CNN features and token-based ViT representations, we design a lightweight Optimal Transport (OT) based transition interface that ensures distribution-aware alignment while respecting spatial consistency. The backbone composition process is then formulated as a sequential decision problem, in which a policy network progressively selects task-relevant modules according to intermediate multi-scale observations. To stabilize the joint optimization of reusable modules and the routing policy, we further develop an Adaptive Module Cooperative Optimization (AMCO) strategy that coordinates module updating, routing exploration, and reward assignment during training. On DOTA-v1.0, DOTA-v1.5 and DIOR-R, BMCR achieves 79.31\%, 73.41\% and 71.86\% mAP, respectively, surpassing strong static and dynamic baselines by up to 2.5 points while maintaining competitive efficiency.
- Abstract(参考訳): リモートセンシングオブジェクト検出において、畳み込みニューラルネットワーク(CNN)は局所的な詳細を捉えるのに優れ、視覚変換器(ViT)はグローバルなコンテキストモデリングにおいて優れている。
しかし、既存の検出器は通常、単一の固定されたバックボーンまたは手動で設計されたハイブリッドアーキテクチャに依存しており、様々な複雑さの入力に対してこれらの補完的な強度を適応的に活用することができない。
この制限に対処するため,Reinforcement Learning (BMCR) を用いたBackbone Module Composingを提案する。
BMCRは、既製のCNNとViTのバックボーンから分解された再利用可能なモジュールから入力適応推論パスを動的に組み立てる。
このようなクロスファミリー構成を可能にするために、まず拡張可能なモジュールツールボックスを構築する。
具体的には、代表的CNNとViTのバックボーンを再利用可能な機能モジュールに分解し、各モジュールを明示的な構造的、意味的、計算的メタデータでカプセル化し、互換性を意識したアセンブリを構築する。
グリッドベースのCNN機能とトークンベースのViT表現のギャップを埋めるため,空間的整合性に配慮しながら分布認識アライメントを保証する軽量な最適トランスポート(OT)ベースのトランジションインターフェースを設計する。
その後、バックボーン合成プロセスはシーケンシャルな決定問題として定式化され、ポリシーネットワークは、中間的マルチスケール観測に基づいてタスク関連モジュールを段階的に選択する。
再利用可能なモジュールの協調最適化とルーティングポリシを安定化するために,モジュール更新,ルーティング探索,報酬割り当てを協調するアダプティブモジュール協調最適化(AMCO)戦略をさらに発展させる。
DOTA-v1.0、DOTA-v1.5、DIOR-Rでは、BMCRはそれぞれ79.31\%、73.41\%、71.86\%のmAPを達成し、競争効率を維持しながら、強い静的および動的ベースラインを2.5ポイント以上越えている。
関連論文リスト
- MAIL++: Multi-Modal Bi-directional Agent Layer for Vision-Language Models [25.637441137217696]
Multi-Modal Interactive Agent Layerは、視覚言語モデルの本質的な計算モジュールに直接クロスモーダル結合を埋め込む。
MAILとMAIL++は一貫して最先端のPEFTメソッドを上回っている。
論文 参考訳(メタデータ) (2026-05-25T06:35:33Z) - RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images [78.19052099452695]
地域分布を考慮した動的適応型オブジェクト検出ネットワーク(RDNet)を提案する。
RDNetはグローバルコンテキストモデリングのためにCNNのバックボーンをSwinTransformerに置き換える。
スケールの変動や正確なローカライゼーションに対して堅牢性を実現し、最先端の手法と比較して優れた検出性能を提供する。
論文 参考訳(メタデータ) (2026-03-12T17:34:29Z) - Learnable Query Aggregation with KV Routing for Cross-view Geo-localisation [12.484512905649309]
クロスビュージオローカライゼーション(CVGL)は,大規模データベースの画像と照合することで,クエリ画像の地理的位置を推定することを目的としている。
これらの課題に対処するために,3つの改良点を取り入れたCVGLシステムを提案する。
論文 参考訳(メタデータ) (2025-12-30T01:51:52Z) - SC-Net: Robust Correspondence Learning via Spatial and Cross-Channel Context [19.20797236825297]
最近の研究は、共用学習のバックボーンとして畳み込みニューラルネットワーク(CNN)の使用に焦点を当てている。
本研究では,空間的・チャネル的両面的な文脈を効果的に統合するSC-Netというネットワークを提案する。
実験では、SC-Netは相対的なポーズ推定と外乱除去タスクにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-12-29T13:56:10Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Multi-Level Aggregation and Recursive Alignment Architecture for Efficient Parallel Inference Segmentation Network [18.47001817385548]
セグメンテーションタスク用にカスタマイズされた並列推論ネットワークを提案する。
実時間速度を確保するために浅いバックボーンを使用し、モデル容量の削減と精度の向上のために3つのコアコンポーネントを提案する。
我々のフレームワークは、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、速度と精度のバランスが良くなっている。
論文 参考訳(メタデータ) (2024-02-03T22:51:17Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。