論文の概要: Scaling Vision Mamba Across Resolutions via Fractal Traversal
- arxiv url: http://arxiv.org/abs/2505.14062v1
- Date: Tue, 20 May 2025 08:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.877595
- Title: Scaling Vision Mamba Across Resolutions via Fractal Traversal
- Title(参考訳): フラクタルトラバーサルによるマンバ分解能のスケーリング
- Authors: Bo Li, Haoke Xiao, Lv Tang,
- Abstract要約: Hilbert曲線によるフラクタルベースのパッチシリアライゼーションを活用するビジョンバックボーンであるFractalMamba++を提案する。
高解像度入力における長距離依存性の減少に対処するため,大域的文脈伝搬を促進するクロスステート(CSR)機構を導入する。
イメージ分類、セマンティックセグメンテーション、オブジェクト検出、変更検出の実験は、FractalMamba++が以前のMambaベースのバックボーンを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 9.566046692165884
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Mamba has recently emerged as a promising alternative to Transformer-based architectures, offering linear complexity in sequence length while maintaining strong modeling capacity. However, its adaptation to visual inputs is hindered by challenges in 2D-to-1D patch serialization and weak scalability across input resolutions. Existing serialization strategies such as raster scanning disrupt local spatial continuity and limit the model's ability to generalize across scales. In this paper, we propose FractalMamba++, a robust vision backbone that leverages fractal-based patch serialization via Hilbert curves to preserve spatial locality and enable seamless resolution adaptability. To address long-range dependency fading in high-resolution inputs, we further introduce a Cross-State Routing (CSR) mechanism that enhances global context propagation through selective state reuse. Additionally, we propose a Positional-Relation Capture (PRC) module to recover local adjacency disrupted by curve inflection points. Extensive experiments on image classification, semantic segmentation, object detection, and change detection demonstrate that FractalMamba++ consistently outperforms previous Mamba-based backbones, particularly under high-resolution settings.
- Abstract(参考訳): Vision Mambaは最近、Transformerベースのアーキテクチャに代わる有望な代替として登場し、強力なモデリング能力を維持しながら、シーケンス長の線形複雑性を提供する。
しかし、視覚入力への適応は、2D-to-1Dパッチのシリアライゼーションと入力解像度の弱いスケーラビリティの課題によって妨げられている。
ラスタースキャンのような既存のシリアライズ戦略は、局所的な空間連続性を妨害し、スケールにわたってモデルを一般化する能力を制限する。
本稿では、Hilbert曲線によるフラクタルベースのパッチシリアライゼーションを利用して、空間的局所性を保ち、シームレスな解像度適応性を実現する、堅牢なビジョンバックボーンであるFractalMamba++を提案する。
高解像度入力における長距離依存性の減少に対処するために、選択的状態再利用によるグローバルコンテキストの伝播を促進するクロスステートルーティング(CSR)機構を導入する。
さらに,曲線のインフレクション点によって乱される局所的隣接性を取り戻すために,位置関係キャプチャー (PRC) モジュールを提案する。
画像分類、セマンティックセグメンテーション、オブジェクト検出、変更検出に関する大規模な実験は、FractalMamba++が、特に高解像度設定下で、以前のMambaベースのバックボーンを一貫して上回っていることを示している。
関連論文リスト
- RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - RSRWKV: A Linear-Complexity 2D Attention Mechanism for Efficient Remote Sensing Vision Task [20.16344973940904]
高分解能リモートセンシング分析は、シーンの複雑さとスケールの多様性による課題に直面している。
逐次処理と2次元空間推論を橋渡しする新しい2D-WKVスキャン機構を特徴とするSRWKVを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:03:46Z) - 2DMCG:2DMambawith Change Flow Guidance for Change Detection in Remote Sensing [4.18306618346671]
本稿では、2次元空間情報をキャプチャする能力を高めるビジョンマンバ変種に基づく効率的なフレームワークを提案する。
このフレームワークは、2DMambaエンコーダを使用して、多時間画像からグローバルなコンテキスト空間情報を効果的に学習する。
ベンチマークデータセットの実験は、最先端の手法と比較して、我々のフレームワークの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-01T14:55:13Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Scalable Visual State Space Model with Fractal Scanning [16.077348474371547]
State Space Models (SSM) はTransformerモデルの効率的な代替品として登場した。
本稿では, フラクタル走査曲線を用いたパッチシリアライゼーションを提案する。
画像分類,検出,セグメンテーションタスクにおいて,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:12:11Z) - MambaIR: A Simple Baseline for Image Restoration with State-Space Model [46.827053426281715]
我々は,バニラ・マンバを改善するために,局部増強とチャンネルアテンションを導入するMambaIRを紹介した。
本手法は,画像SR上でSwinIRを最大0.45dB向上させる。
論文 参考訳(メタデータ) (2024-02-23T23:15:54Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Improving the generalization of network based relative pose regression:
dimension reduction as a regularizer [16.63174637692875]
最先端のビジュアルローカライゼーション手法は、RANSACフレームワーク内の幾何に基づく解法を用いてポーズ推定を行う。
エンドツーエンドの学習に基づく回帰ネットワークは、正確なピクセルレベルの対応の要求を回避するためのソリューションを提供する。
本稿では,絶対像特徴値からポーズ回帰解法を分離するために,ネットワーク内に学習可能なマッチング層を明示的に追加する。
我々はこの次元正規化戦略を2層ピラミッドベースのフレームワークで実装し、局所化結果を粗いものから細かいものへと回帰する。
論文 参考訳(メタデータ) (2020-10-24T06:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。