論文の概要: Breaking the Resource Wall: Geometry-Guided Sequence Modeling for Efficient Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2604.23399v2
- Date: Mon, 04 May 2026 11:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.405079
- Title: Breaking the Resource Wall: Geometry-Guided Sequence Modeling for Efficient Semantic Segmentation
- Title(参考訳): 資源壁の破壊:効率的なセマンティックセグメンテーションのための幾何学誘導シーケンスモデリング
- Authors: Sheng-Wei Chan, Hsin-Jui Pan, Chun-Po Shen, Chia-Min Lin, Yung-Che Wang, Jen-Shiun Chiang,
- Abstract要約: DGM-Netは、モデル容量を増やすのではなく、構造設計によるモデリング能力を改善する効率的なアーキテクチャである。
本稿では,従来のコンテキストモデリングモジュールに代わる線形複雑度O(N)演算子である Directional Geometric Mamba (G-Mamba) を紹介する。
DGM-Netは28kイテレーションで80.8% mIoU、Cityscapesテストセットで82.3% mIoU、ADE20Kで45.24% mIoUを達成した。
- 参考スコア(独自算出の注目度): 0.30786914102688595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-performance semantic segmentation has achieved significant progress in recent years, often driven by increasingly large backbones and higher computational budgets. While effective, such approaches introduce substantial computational overhead and limit accessibility under constrained hardware settings. In this paper, we propose DGM-Net (Directional Geometric Mamba Network), an efficient architecture that improves modeling capability through structural design rather than increasing model capacity. We introduce Directional Geometric Mamba (G-Mamba), a linear-complexity O(N) operator as an alternative to conventional context modeling modules such as ASPP and PPM. To further enhance structural awareness in state space model (SSM)-based modeling, we design the DGM-Module, which extracts centripetal flow fields and topological skeletons to guide the scanning process and improve boundary preservation. Without relying on large-scale pretraining or heavy backbone scaling, DGM-Net achieves 80.8% mIoU within 28k iterations, 82.3% mIoU on Cityscapes test set, and 45.24% mIoU on ADE20K. In addition, the model maintains stable performance under constrained hardware settings (e.g., batch size of 2 on 8GB VRAM), highlighting its efficiency and practicality. These results demonstrate that incorporating geometric guidance into SSM-based architectures provides an effective and resource-efficient direction for semantic segmentation.
- Abstract(参考訳): 高性能なセマンティックセグメンテーションは近年大きなバックボーンと高い計算予算によって大きな進歩を遂げている。
このような手法は有効ではあるが、制約のあるハードウェア設定下での計算オーバーヘッドとアクセシビリティの制限を導入している。
本稿では,DGM-Net(Directional Geometric Mamba Network)を提案する。
本稿では,ASPP や PPM などの従来のコンテキストモデリングモジュールに代わる線形複雑度 O(N) 演算子である Directional Geometric Mamba (G-Mamba) を紹介する。
状態空間モデル(SSM)に基づくモデリングにおける構造的認識をさらに高めるため,DGM-Moduleを設計し,遠心流場とトポロジカルスケルトンを抽出し,走査過程をガイドし,境界保存を改善する。
DGM-Netは28kイテレーションで80.8% mIoU、Cityscapesテストセットで82.3% mIoU、ADE20Kで45.24% mIoUを達成している。
さらに、このモデルは、制約のあるハードウェア設定(例:8GB VRAMのバッチサイズ2)下での安定したパフォーマンスを維持し、その効率と実用性を強調している。
これらの結果から,SSMに基づくアーキテクチャに幾何学的ガイダンスを組み込むことで,セマンティックセグメンテーションの効率的かつ資源効率の高い方向性が示される。
関連論文リスト
- PerfMamba: Performance Analysis and Pruning of Selective State Space Models [10.047668792033033]
我々はMamba-1とMamba-2について検討し、状態空間モデリングにおけるその効率性に寄与する設計原理を評価する。
本研究では,SSMコンポーネント内の低活性状態を除去し,計測可能なスループットとメモリゲインを実現するプルーニング手法を提案する。
このアプローチにより、様々なシーケンスの長さでパフォーマンスが向上し、1.14倍のスピードアップを実現し、メモリ使用量を11.50%削減できる。
論文 参考訳(メタデータ) (2025-11-28T03:09:15Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - MTGR: Industrial-Scale Generative Recommendation Framework in Meituan [32.12374665716164]
この問題に対処するためにMTGR(Meituan Generative Recommendation)を提案する。
MTGRはユーザレベルの圧縮によってトレーニングと推論の高速化を実現し、効率的なスケーリングを実現する。
この突破口は世界最大のフードデリバリープラットフォームであるMeituanに配備された。
論文 参考訳(メタデータ) (2025-05-24T11:47:28Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。