論文の概要: Partial Ring Scan: Revisiting Scan Order in Vision State Space Models
- arxiv url: http://arxiv.org/abs/2602.04170v1
- Date: Wed, 04 Feb 2026 03:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.352886
- Title: Partial Ring Scan: Revisiting Scan Order in Vision State Space Models
- Title(参考訳): 部分リングスキャン:視覚状態空間モデルにおけるスキャン順序の再検討
- Authors: Yi-Kuan Hsieh, Jun-Wei Hsieh, Xin li, Ming-Ching Chang, Yu-Chee Tseng,
- Abstract要約: 状態空間モデル(SSM)は視覚タスクに注目する効率的な代替手段として登場した。
ビジョンSSMは、事前に定義されたスキャン順序に沿って、2D画像を1Dトークンシーケンスにシリアライズする必要がある。
スキャン順序は, 空間的隣接度, 破壊対象の連続性, 回転などの幾何学的変換による劣化を増幅することにより, 性能に重要な影響を与えることを示す。
- 参考スコア(独自算出の注目度): 32.040984973714394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State Space Models (SSMs) have emerged as efficient alternatives to attention for vision tasks, offering lineartime sequence processing with competitive accuracy. Vision SSMs, however, require serializing 2D images into 1D token sequences along a predefined scan order, a factor often overlooked. We show that scan order critically affects performance by altering spatial adjacency, fracturing object continuity, and amplifying degradation under geometric transformations such as rotation. We present Partial RIng Scan Mamba (PRISMamba), a rotation-robust traversal that partitions an image into concentric rings, performs order-agnostic aggregation within each ring, and propagates context across rings through a set of short radial SSMs. Efficiency is further improved via partial channel filtering, which routes only the most informative channels through the recurrent ring pathway while keeping the rest on a lightweight residual branch. On ImageNet-1K, PRISMamba achieves 84.5% Top-1 with 3.9G FLOPs and 3,054 img/s on A100, outperforming VMamba in both accuracy and throughput while requiring fewer FLOPs. It also maintains performance under rotation, whereas fixed-path scans drop by 1~2%. These results highlight scan-order design, together with channel filtering, as a crucial, underexplored factor for accuracy, efficiency, and rotation robustness in Vision SSMs. Code will be released upon acceptance.
- Abstract(参考訳): 状態空間モデル(SSM)は、視覚タスクに注意を向ける効率的な代替手段として登場し、線形時間シーケンス処理と競合精度を提供する。
しかし、視覚SSMは、事前に定義されたスキャン順序に沿って、2D画像を1Dトークンシーケンスにシリアライズする必要がある。
スキャン順序は, 空間的隣接度, 破壊対象の連続性, 回転などの幾何学的変換による劣化を増幅することにより, 性能に重要な影響を与えることを示す。
本稿では,同心円環に画像を分割し,各環内で秩序に依存しないアグリゲーションを行い,短いラジアルSSMの集合を通して,リング間のコンテキストを伝播する回転ローバストトラバーサルであるPartial RIng Scan Mamba(PRISMamba)を提案する。
効率は部分的なチャネルフィルタリングによってさらに改善され、これは繰り返しリング経路を介して最も情報性の高いチャネルのみをルートし、残りは軽量な残枝に保持する。
ImageNet-1Kでは、PRISMambaは3.9G FLOPsと3,054 img/sで84.5%のTop-1を達成した。
また、回転中のパフォーマンスも維持するが、固定パススキャンは1~2%低下する。
これらの結果から,Vision SSMの精度,効率,回転ロバスト性に対する重要かつ未探索な因子として,チャネルフィルタリングとともにスキャン順序設計が強調された。
コードは受理時にリリースされる。
関連論文リスト
- SelfDRSC++: Self-Supervised Learning for Dual Reversed Rolling Shutter Correction [72.05587640928879]
二重反転RS歪み補正(SelfDRSC++)のための自己教師付き学習フレームワークを提案する。
双方向相関マッチングブロックを組み込んだ軽量DRSCネットワークを導入し,光学流の結合最適化とRS特性の補正を行う。
DRSCネットワークを効果的に訓練するために、入力と再構成された二重逆RS画像間のサイクル整合性を保証する自己教師付き学習戦略を提案する。
論文 参考訳(メタデータ) (2024-08-21T08:17:22Z) - Scalable Visual State Space Model with Fractal Scanning [16.077348474371547]
State Space Models (SSM) はTransformerモデルの効率的な代替品として登場した。
本稿では, フラクタル走査曲線を用いたパッチシリアライゼーションを提案する。
画像分類,検出,セグメンテーションタスクにおいて,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:12:11Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - Super-Resolution on Rotationally Scanned Photoacoustic Microscopy Images Incorporating Scanning Prior [12.947842858489516]
光音響顕微鏡(PAM)画像は、光コントラストと音響分解能の利点を組み合わせた脳研究で広く利用されている。
走査速度と画像解像度の間にはトレードオフがあり、従来の走査と比較すると、回転走査は走査機構を最適化することで高速なPAMイメージングの好機となる。
本研究では,回転走査型PAMイメージングのための新しい高性能超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:41:35Z) - Self-supervised Learning to Bring Dual Reversed Rolling Shutter Images
Alive [56.70381414277253]
デュアルRS歪み補正のための自己教師型学習フレームワーク(SelfDRSC)を提案する。
DRSCネットワークは、逆歪みを持つデュアルRS画像のみに基づいて、高いフレームレートGS映像を生成することができる。
実世界のRSのケースでは、SelfDRSCはより微細な補正テクスチャとより優れた一時的な一貫性を備えたフレームレートのハイテクビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-31T13:55:00Z) - Rolling Shutter Inversion: Bring Rolling Shutter Images to High
Framerate Global Shutter Video [111.08121952640766]
本稿では,RS時相超解問題に対する新しいディープラーニングに基づく解法を提案する。
RSイメージングプロセスの多視点幾何関係を利用して,高フレームレートGS生成を実現する。
提案手法は,高精細で高品質なGS画像系列を生成でき,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-06T16:47:12Z) - Efficient Non-Line-of-Sight Imaging from Transient Sinograms [36.154873075911404]
非視線(NLOS)イメージング技術は、角の周囲を見るために可視表面(例えば壁)から拡散的に反射する光を使用する。
1つのアプローチは、パルスレーザーと超高速センサーを使用して、多重散乱光の移動時間を測定することである。
より効率的なNLOSスキャン方式を提案する。
論文 参考訳(メタデータ) (2020-08-06T17:50:50Z) - Kullback-Leibler Divergence-Based Fuzzy $C$-Means Clustering
Incorporating Morphological Reconstruction and Wavelet Frames for Image
Segmentation [152.609322951917]
そこで我々は,厳密なウェーブレットフレーム変換と形態的再構成操作を組み込むことで,Kulback-Leibler (KL) 発散に基づくFuzzy C-Means (FCM) アルゴリズムを考案した。
提案アルゴリズムはよく機能し、他の比較アルゴリズムよりもセグメンテーション性能が優れている。
論文 参考訳(メタデータ) (2020-02-21T05:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。