論文の概要: HybridTM: Combining Transformer and Mamba for 3D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2507.18575v1
- Date: Thu, 24 Jul 2025 16:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.139249
- Title: HybridTM: Combining Transformer and Mamba for 3D Semantic Segmentation
- Title(参考訳): HybridTM:3次元セマンティックセグメンテーションのためのトランスフォーマーとマンバの組み合わせ
- Authors: Xinyu Wang, Jinghua Hou, Zhe Liu, Yingying Zhu,
- Abstract要約: 3次元セマンティックセグメンテーションのためにTransformerとMambaを統合した最初のハイブリッドアーキテクチャであるHybridTMを提案する。
さらに,注意とマンバをより微細な粒度で組み合わせた内層ハイブリッド戦略を提案する。
私たちのHybridTMは、ScanNet、ScanNet200、nuScenesベンチマークで最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 7.663855540620183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based methods have demonstrated remarkable capabilities in 3D semantic segmentation through their powerful attention mechanisms, but the quadratic complexity limits their modeling of long-range dependencies in large-scale point clouds. While recent Mamba-based approaches offer efficient processing with linear complexity, they struggle with feature representation when extracting 3D features. However, effectively combining these complementary strengths remains an open challenge in this field. In this paper, we propose HybridTM, the first hybrid architecture that integrates Transformer and Mamba for 3D semantic segmentation. In addition, we propose the Inner Layer Hybrid Strategy, which combines attention and Mamba at a finer granularity, enabling simultaneous capture of long-range dependencies and fine-grained local features. Extensive experiments demonstrate the effectiveness and generalization of our HybridTM on diverse indoor and outdoor datasets. Furthermore, our HybridTM achieves state-of-the-art performance on ScanNet, ScanNet200, and nuScenes benchmarks. The code will be made available at https://github.com/deepinact/HybridTM.
- Abstract(参考訳): トランスフォーマーベースの手法は、強力な注意機構を通じて3次元セマンティックセグメンテーションにおいて顕著な機能を示したが、二次的な複雑さは、大規模な点雲における長距離依存のモデリングを制限する。
最近のMambaベースのアプローチは、線形複雑性を伴う効率的な処理を提供するが、3D特徴を抽出する際に特徴表現に苦労する。
しかし、これらの補完的な強みを効果的に組み合わせることは、この分野において未解決の課題である。
本稿では3次元セマンティックセグメンテーションのためにTransformerとMambaを統合した最初のハイブリッドアーキテクチャであるHybridTMを提案する。
さらに,注意とマンバをより微細な粒度で組み合わせた内層ハイブリッド戦略を提案する。
室内および屋外の多様なデータセットに対するHybridTMの有効性と一般化を広範囲にわたる実験により実証した。
さらに,我々のHybridTMは,ScanNet,ScanNet200,nuScenesベンチマークの最先端性能を実現している。
コードはhttps://github.com/deepinact/HybridTMで公開される。
関連論文リスト
- VMatcher: State-Space Semi-Dense Local Feature Matching [0.0]
VMatcherは、イメージペア間のセミセンス機能マッチングのためのハイブリッドなMamba-Transformerネットワークである。
VMatcherは、Mambaの高効率なロングシーケンス処理とTransformerのアテンションメカニズムを統合している。
論文 参考訳(メタデータ) (2025-07-31T09:39:16Z) - MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture [12.168520751389622]
ハイパースペクトル画像(HSI)分類は、高次元データ、限られたトレーニングサンプル、スペクトル冗長性といった課題に直面している。
本稿では,3D-CNNの局所特徴抽出,Transformerのグローバルモデリング,Mambaの線形シーケンスモデリング機能を統合した新しいMVNetネットワークアーキテクチャを提案する。
IN、UP、KSCデータセットでは、MVNetは分類精度と計算効率の両方で主流のハイパースペクトル画像分類法より優れている。
論文 参考訳(メタデータ) (2025-07-06T14:52:26Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection [4.757840725810513]
YOLOシリーズモデルは、速度と精度のバランスをとることで、強力なベンチマークを設定している。
トランスフォーマーは自己アテンション機構のため、計算の複雑さが高い。
精度と効率のバランスをとる新しいオブジェクト検出フレームワークであるMambaNeXt-YOLOを提案する。
論文 参考訳(メタデータ) (2025-06-04T07:46:24Z) - Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS Demosaicing [21.15110217419682]
本稿では,HybridEVS RAW画像の効率的な復調を実現するために,軽量なマンバ型バイナリニューラルネットワークを提案する。
Bi-Mambaは全ての射影をバイナライズし、コアSelective Scanを完全精度で保持する。
我々は,BMTNetの性能と計算効率の両面において,定量的かつ定性的な実験を行い,BMTNetの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-20T13:32:27Z) - UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection [64.65405058535262]
LiDAR 3D検出の最近の進歩は、ポイントクラウド空間からグローバルな依存関係をキャプチャするTransformerベースのフレームワークの有効性を示している。
トランスフォーマーのかなりの数の3Dボクセルと二次的な複雑さのため、トランスフォーマーに供給する前に複数のシーケンスがグループ化され、受容野が制限される。
2次元視覚タスクの分野で達成された状態空間モデル(SSM)の印象的な性能に触発されて、我々は新しい統一マンバ(UniMamba)を提案する。
特に、UniMambaブロックは、主にローカリティモデリング、Zオーダーシリアライゼーション、局所グローバルシーケンシャルアグリゲータで構成されている。
論文 参考訳(メタデータ) (2025-03-15T06:22:31Z) - Multi-granular body modeling with Redundancy-Free Spatiotemporal Fusion for Text-Driven Motion Generation [10.843503146808839]
HiSTF Mambaを3つの部分からなるフレームワークとして紹介する: Dual-tial Mamba, Bi-Temporal Mamba, Spatiotemporal Fusion Module (DSFM)。
HumanML3Dベンチマークの実験では、HiSTF Mambaはいくつかの指標でよく機能し、高い忠実さとテキストとモーション間の密接なセマンティックアライメントを実現している。
論文 参考訳(メタデータ) (2025-03-10T04:01:48Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Prototype Learning Guided Hybrid Network for Breast Tumor Segmentation in DCE-MRI [58.809276442508256]
本稿では,畳み込みニューラルネットワーク(CNN)とトランスフォーマー層を組み合わせたハイブリッドネットワークを提案する。
プライベートおよびパブリックなDCE-MRIデータセットの実験結果から,提案したハイブリッドネットワークは最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-11T15:46:00Z) - HybridGait: A Benchmark for Spatial-Temporal Cloth-Changing Gait
Recognition with Hybrid Explorations [66.5809637340079]
そこで本研究では,第1世代CCGaitベンチマークを提案する。
我々は3次元メッシュの時間的ダイナミクスと投影された2次元情報の両方を利用する。
私たちのコントリビューションは2つあります: 拡張された空間にわたる現実的な外見の変化をキャプチャする、挑戦的なベンチマークCCGaitを提供しています。
論文 参考訳(メタデータ) (2023-12-30T16:12:13Z) - 3D Mitochondria Instance Segmentation with Spatio-Temporal Transformers [101.44668514239959]
本稿では,空間的および時間的注意を並列に効率的に計算するハイブリッドエンコーダデコーダフレームワークを提案する。
また,ミトコンドリアインスタンスの領域を背景から支援する訓練中に,意味的クラッタ・バックグラウンドの逆行性障害も導入した。
論文 参考訳(メタデータ) (2023-03-21T17:58:49Z) - Hybrid Dual Mean-Teacher Network With Double-Uncertainty Guidance for
Semi-Supervised Segmentation of MRI Scans [11.762045723792266]
本稿では,高効率な半教師付きセグメンテーションを実現するために,ハイブリッド,半教師付き,マルチタスク学習を備えたハイブリッドデュアル平均教師モデルを提案する。
論文 参考訳(メタデータ) (2023-03-09T09:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。