論文の概要: Beyond Mamba: Enhancing State-space Models with Deformable Dilated Convolutions for Multi-scale Traffic Object Detection
- arxiv url: http://arxiv.org/abs/2604.08038v1
- Date: Thu, 09 Apr 2026 09:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.847987
- Title: Beyond Mamba: Enhancing State-space Models with Deformable Dilated Convolutions for Multi-scale Traffic Object Detection
- Title(参考訳): Beyond Mamba: マルチスケールトラフィックオブジェクト検出のための変形可能な拡張畳み込みによる状態空間モデルの実現
- Authors: Jun Li, Yingying Shi, Zhixuan Ruan, Nan Guo, Jianhua Xu,
- Abstract要約: 本研究では,変形可能なDilated Convolutions Network (MDDCNet) を用いたMambaを提案する。
MDDCNetでは、連続するMambaブロックを持つよく設計されたハイブリッドバックボーンは、局所的な詳細からグローバルな意味論への階層的な特徴表現を可能にする。
The Channel-Enhanced Feed-Forward Network (CE-FFN) is developed to overcome the limited channel interaction capabilities of conventional feed-forward network。
- 参考スコア(独自算出の注目度): 6.929321171294922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a real-world traffic scenario, varying-scale objects are usually distributed in a cluttered background, which poses great challenges to accurate detection. Although current Mamba-based methods can efficiently model long-range dependencies, they still struggle to capture small objects with abundant local details, which hinders joint modeling of local structures and global semantics. Moreover, state-space models exhibit limited hierarchical feature representation and weak cross-scale interaction due to flat sequential modeling and insufficient spatial inductive biases, leading to sub-optimal performance in complex scenes. To address these issues, we propose a Mamba with Deformable Dilated Convolutions Network (MDDCNet) for accurate traffic object detection in this study. In MDDCNet, a well-designed hybrid backbone with successive Multi-Scale Deformable Dilated Convolution (MSDDC) blocks and Mamba blocks enables hierarchical feature representation from local details to global semantics. Meanwhile, a Channel-Enhanced Feed-Forward Network (CE-FFN) is further devised to overcome the limited channel interaction capability of conventional feed-forward networks, whilst a Mamba-based Attention-Aggregating Feature Pyramid Network (A^2FPN) is constructed to achieve enhanced multi-scale feature fusion and interaction. Extensive experimental results on public benchmark and real-world datasets demonstrate the superiority of our method over various advanced detectors. The code is available at https://github.com/Bettermea/MDDCNet.
- Abstract(参考訳): 現実世界のトラフィックシナリオでは、さまざまなスケールのオブジェクトは通常、散らかったバックグラウンドに分散されるため、正確な検出には大きな課題が生じる。
現在のMambaベースの手法は、長距離依存を効率的にモデル化することができるが、局所的な詳細が豊富にある小さなオブジェクトを捕えるのに苦慮し、局所構造と大域的意味論の共同モデリングを妨げている。
さらに、状態空間モデルは、平坦な逐次モデリングと空間誘導バイアスが不十分なため、限られた階層的特徴表現と弱いクロススケール相互作用を示し、複雑なシーンにおける準最適性能をもたらす。
これらの問題に対処するために,変形可能なDilated Convolutions Network (MDDCNet) を用いたMambaを提案する。
MDDCNetでは、Multi-Scale Deformable Dilated Convolution(MSDDC)ブロックとMambaブロックが連続して設計された、よく設計されたハイブリッドバックボーンが、局所的な詳細からグローバルなセマンティクスへの階層的な特徴表現を可能にしている。
一方, チャネル強化フィードフォワードネットワーク (CE-FFN) は, 従来のフィードフォワードネットワークのチャネル間通信能力の限界を克服し, マルチスケール機能融合とインタラクションを実現するために, マンバベースのアテンション・アグリゲーション機能ピラミッドネットワーク (A^2FPN) を構築した。
公開ベンチマークと実世界のデータセットによる大規模な実験結果から, 種々の先進検出器に対する本手法の優位性が確認された。
コードはhttps://github.com/Bettermea/MDDCNetで公開されている。
関連論文リスト
- Samba+: General and Accurate Salient Object Detection via A More Unified Mamba-based Framework [66.2103745798444]
Saliency Mamba (Samba) は、純粋なMambaベースのアーキテクチャで、様々な異なるサルトオブジェクト検出タスクを柔軟に処理する。
Sambaは、計算コストの低い22データセット上の6つのSODタスクで、既存のメソッドを個別に上回ります。
Samba+は、トレーニング済みの汎用モデルを使用することで、これらのタスクとデータセット上でさらに優れた結果を得る。
論文 参考訳(メタデータ) (2026-02-02T03:34:25Z) - M2I2HA: Multi-modal Object Detection Based on Intra- and Inter-Modal Hypergraph Attention [5.485819352754784]
本稿では,M2I2HAと呼ばれるハイパーグラフ理論に基づくマルチモーダル知覚ネットワークを提案する。
我々のアーキテクチャにはハイパーグラフ内拡張モジュールが含まれており、各モダリティ内の大域的な多対多の高次関係をキャプチャする。
Inter-Hypergraph Fusionモジュールは、データソース間のコンフィグレーションと空間ギャップをブリッジすることで、クロスモーダル機能を調整、拡張、フューズする。
論文 参考訳(メタデータ) (2026-01-21T08:55:07Z) - MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection [94.12444452690329]
本稿では,長距離モデリングとグローバル機能検出機能を導入した新しい状態空間TADモデルであるMambaTADを提案する。
MambaTADは、複数の公開ベンチマークで一貫して優れたTAD性能を達成する。
論文 参考訳(メタデータ) (2025-11-22T06:04:29Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - InceptionMamba: An Efficient Hybrid Network with Large Band Convolution and Bottleneck Mamba [21.47782205082816]
InceptionNeXtは、画像分類と多くの下流タスクにおいて優れた競争力を示している。
InceptionNeXtは、平行1次元のストリップ畳み込みに基づいて構築され、異なる次元に沿って空間的依存関係をキャプチャする限られた能力に悩まされている。
本稿では,これらの制約を克服するために,InceptionMambaと呼ばれる新しいバックボーンアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:31:05Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。