論文の概要: Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2602.19536v1
- Date: Mon, 23 Feb 2026 06:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.694807
- Title: Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection
- Title(参考訳): Fore-Mamba3D:3Dオブジェクト検出のためのマンバベースフォアグラウンドエンコーディング
- Authors: Zhiwei Ning, Xuanang Gao, Jiaxi Cao, Runze Yang, Huiying Xu, Xinzhong Zhu, Jie Yang, Wei Liu,
- Abstract要約: 我々は,マンバをベースとしたエンコーダを改良した新しいバックボーン,フォア・マンバ3Dを提案する。
本研究では, 前景ボクセルの相互作用における応答減衰を考慮し, 地域間スライドウィンドウを設計する。
本手法は, 線形オートレモデルにおいて, 前景のみの符号化を重視し, 距離ベースおよび因果依存性を緩和する。
- 参考スコア(独自算出の注目度): 16.398581898787608
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Linear modeling methods like Mamba have been merged as the effective backbone for the 3D object detection task. However, previous Mamba-based methods utilize the bidirectional encoding for the whole non-empty voxel sequence, which contains abundant useless background information in the scenes. Though directly encoding foreground voxels appears to be a plausible solution, it tends to degrade detection performance. We attribute this to the response attenuation and restricted context representation in the linear modeling for fore-only sequences. To address this problem, we propose a novel backbone, termed Fore-Mamba3D, to focus on the foreground enhancement by modifying Mamba-based encoder. The foreground voxels are first sampled according to the predicted scores. Considering the response attenuation existing in the interaction of foreground voxels across different instances, we design a regional-to-global slide window (RGSW) to propagate the information from regional split to the entire sequence. Furthermore, a semantic-assisted and state spatial fusion module (SASFMamba) is proposed to enrich contextual representation by enhancing semantic and geometric awareness within the Mamba model. Our method emphasizes foreground-only encoding and alleviates the distance-based and causal dependencies in the linear autoregression model. The superior performance across various benchmarks demonstrates the effectiveness of Fore-Mamba3D in the 3D object detection task.
- Abstract(参考訳): Mambaのような線形モデリング手法は、3Dオブジェクト検出タスクの有効なバックボーンとして統合されている。
しかし,従来のマンバ方式では,シーン中の無用な背景情報を含む非空ボクセル列全体の双方向符号化が用いられている。
前景のボクセルを直接符号化することは妥当な解決法であるように見えるが、検出性能は低下する傾向にある。
我々はこれを、フォアのみのシーケンスに対する線形モデリングにおける応答減衰と制限されたコンテキスト表現に起因している。
この問題に対処するため,我々はフォア・マンバ3Dと呼ばれる新しいバックボーンを提案し,マンバをベースとしたエンコーダを改良して前景の強化に焦点をあてる。
前景のボクセルは、予測されたスコアに従って最初にサンプリングされる。
本研究では, 前景ボクセル同士の相互作用における応答減衰を考慮し, 地域間スライドウィンドウ(RGSW)を設計し, 地域分割からシーケンス全体へ情報を伝達する。
さらに,マンバモデル内の意味的および幾何学的認識を強化することで,文脈表現の強化を図るために,意味支援および状態空間融合モジュール(SASFMamba)を提案する。
本手法は, 線形自己回帰モデルにおいて, 前景のみの符号化を重視し, 距離依存性と因果依存性を緩和する。
様々なベンチマークでの優れた性能は、3Dオブジェクト検出タスクにおけるFore-Mamba3Dの有効性を示す。
関連論文リスト
- Samba+: General and Accurate Salient Object Detection via A More Unified Mamba-based Framework [66.2103745798444]
Saliency Mamba (Samba) は、純粋なMambaベースのアーキテクチャで、様々な異なるサルトオブジェクト検出タスクを柔軟に処理する。
Sambaは、計算コストの低い22データセット上の6つのSODタスクで、既存のメソッドを個別に上回ります。
Samba+は、トレーニング済みの汎用モデルを使用することで、これらのタスクとデータセット上でさらに優れた結果を得る。
論文 参考訳(メタデータ) (2026-02-02T03:34:25Z) - TextMamba: Scene Text Detector with Mamba [6.992080935409672]
本稿では,Mambaをベースとした新しいシーンテキスト検出手法を提案する。
我々はTop_kアルゴリズムを採用し、キー情報を明示的に選択し、Mambaモデリングにおける無関係情報の干渉を低減する。
提案手法は,様々なベンチマークにおいて,最先端または競争性能を実現する。
論文 参考訳(メタデータ) (2025-12-07T05:06:19Z) - WinMamba: Multi-Scale Shifted Windows in State Space Model for 3D Object Detection [22.498942151484624]
WinMambaは、WinMambaブロックを積み重ねた新しいMambaベースの3Dフィーチャエンコードバックボーンである。
堅牢なマルチスケール表現でバックボーンを強化するため、WinMambaブロックにはウィンドウスケール適応モジュールが組み込まれている。
KITTIとデータセットの実験は、WinMambaがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-11-17T08:46:54Z) - AtrousMamaba: An Atrous-Window Scanning Visual State Space Model for Remote Sensing Change Detection [29.004019252136565]
本稿では,グローバルな文脈情報の統合と微粒な局所的詳細情報の抽出のバランスをとる新しいモデルであるAtrousMambaを提案する。
AWVSS(Atrous window scan visual state space)モジュールを活用することで、バイナリチェンジ検出(BCD)とセマンティックチェンジ検出(SCD)のためのエンド・ツー・エンドのMambaベースのフレームワークを設計する。
6つのベンチマークデータセットの実験結果は、提案フレームワークが既存のCNNベース、Transformerベース、Mambaベースの手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-07-22T02:36:16Z) - DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。
変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。
多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-04-08T08:22:54Z) - Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - Point Cloud Mamba: Point Cloud Learning via State Space Model [73.7454734756626]
我々は,マンバをベースとしたポイントクラウド法が,トランスフォーマや多層パーセプトロン(MLP)に基づく従来手法よりも優れていることを示す。
特に,マルチ層パーセプトロン(MLP)を用いて,マンバをベースとした点雲法が従来手法より優れていることを示す。
Point Cloud Mambaは、最先端(SOTA)のポイントベースメソッドであるPointNeXtを超え、ScanNN、ModelNet40、ShapeNetPart、S3DISデータセット上での新たなSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-01T18:59:03Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。