論文の概要: DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection
- arxiv url: http://arxiv.org/abs/2603.06920v1
- Date: Fri, 06 Mar 2026 22:43:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.400043
- Title: DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection
- Title(参考訳): DLRMamba:エッジマルチスペクトル核融合物検出のための低ランクマンバ蒸留
- Authors: Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An,
- Abstract要約: マルチスペクトル融合物体検出は、エッジベースの海洋監視とリモートセンシングにとって重要な課題である。
Mambaのような現在の状態空間モデル(SSM)は、標準の2D Selective Scan (SS2D)ブロックで重要なパラメータ冗長性に悩まされている。
本稿では,行列分解による状態遷移を再構成し,固有特徴空間を利用する低ランク2次元選択状態空間モデル(Low-Rank SS2D)を提案する。
- 参考スコア(独自算出の注目度): 7.883488411699879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral fusion object detection is a critical task for edge-based maritime surveillance and remote sensing, demanding both high inference efficiency and robust feature representation for high-resolution inputs. However, current State Space Models (SSMs) like Mamba suffer from significant parameter redundancy in their standard 2D Selective Scan (SS2D) blocks, which hinders deployment on resource-constrained hardware and leads to the loss of fine-grained structural information during conventional compression. To address these challenges, we propose the Low-Rank Two-Dimensional Selective Structured State Space Model (Low-Rank SS2D), which reformulates state transitions via matrix factorization to exploit intrinsic feature sparsity. Furthermore, we introduce a Structure-Aware Distillation strategy that aligns the internal latent state dynamics of the student with a full-rank teacher model to compensate for potential representation degradation. This approach substantially reduces computational complexity and memory footprint while preserving the high-fidelity spatial modeling required for object recognition. Extensive experiments on five benchmark datasets and real-world edge platforms, such as Raspberry Pi 5, demonstrate that our method achieves a superior efficiency-accuracy trade-off, significantly outperforming existing lightweight architectures in practical deployment scenarios.
- Abstract(参考訳): マルチスペクトル融合物体検出は、エッジベースの海洋監視とリモートセンシングにとって重要な課題であり、高い推論効率と高解像度入力のためのロバストな特徴表現の両方を要求する。
しかし、Mambaのような現在のステートスペースモデル(SSM)は、標準の2D Selective Scan(SS2D)ブロックにおいて重要なパラメータ冗長性に悩まされており、リソース制約のあるハードウェアへの展開を妨げ、従来の圧縮中にきめ細かな構造情報が失われる。
これらの課題に対処するために,行列分解による状態遷移を再構成し,固有特徴空間を利用する低ランク2次元選択型状態空間モデル (Low-Rank SS2D) を提案する。
さらに、学生の内部潜伏状態のダイナミクスをフルランクの教師モデルと整合させて、潜在的表現劣化を補う構造意識蒸留戦略を導入する。
このアプローチは、オブジェクト認識に必要な高忠実度空間モデリングを保ちながら、計算複雑性とメモリフットプリントを大幅に削減する。
Raspberry Pi 5のような5つのベンチマークデータセットと現実世界のエッジプラットフォームに関する大規模な実験は、我々の手法がより優れた効率と精度のトレードオフを実現し、実用的なデプロイメントシナリオにおいて既存の軽量アーキテクチャよりも大幅に優れていることを実証している。
関連論文リスト
- HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [45.347078403677216]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。
しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。
本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:47:18Z) - MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture [12.168520751389622]
ハイパースペクトル画像(HSI)分類は、高次元データ、限られたトレーニングサンプル、スペクトル冗長性といった課題に直面している。
本稿では,3D-CNNの局所特徴抽出,Transformerのグローバルモデリング,Mambaの線形シーケンスモデリング機能を統合した新しいMVNetネットワークアーキテクチャを提案する。
IN、UP、KSCデータセットでは、MVNetは分類精度と計算効率の両方で主流のハイパースペクトル画像分類法より優れている。
論文 参考訳(メタデータ) (2025-07-06T14:52:26Z) - KDC-Diff: A Latent-Aware Diffusion Model with Knowledge Retention for Memory-Efficient Image Generation [2.0250638970950905]
KDC-Diffは、ハイパフォーマンスを維持しながら計算オーバーヘッドを大幅に削減するために設計された、新しくスケーラブルな生成フレームワークである。
本モデルでは,FID,CLIP,KID,LPIPSの指標に対して,パラメータ数,推論時間,FLOPの大幅な削減を実現し,高い性能を示す。
論文 参考訳(メタデータ) (2025-05-11T14:40:51Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - RSRWKV: A Linear-Complexity 2D Attention Mechanism for Efficient Remote Sensing Vision Task [20.16344973940904]
高分解能リモートセンシング分析は、シーンの複雑さとスケールの多様性による課題に直面している。
逐次処理と2次元空間推論を橋渡しする新しい2D-WKVスキャン機構を特徴とするSRWKVを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:03:46Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。