論文の概要: TCP-SSM: Efficient Vision State Space Models with Token-Conditioned Poles
- arxiv url: http://arxiv.org/abs/2605.11563v1
- Date: Tue, 12 May 2026 05:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.608402
- Title: TCP-SSM: Efficient Vision State Space Models with Token-Conditioned Poles
- Title(参考訳): TCP-SSM:Token-Conditioned Polesを用いた高効率ビジョン状態モデル
- Authors: Sara Shoouri, Morteza Tavakoli Taba, Hun-Seok Kim,
- Abstract要約: ステートスペースモデル(SSM)は、長距離ビジョンタスクの注意モデルに代わる魅力的な代替品として登場した。
本稿では,再帰ダイナミクスを明示しつつ効率を向上する構造化選択型SSMフレームワークであるToken-Conditioned Poles SSMを提案する。
TCP-SSMは、ベースライン精度を維持したり超えたりしながら、Vision MambaスタイルのモデルでSSM計算の複雑さを最大44%削減することを示す。
- 参考スコア(独自算出の注目度): 12.357939380869526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State Space Models (SSMs) have emerged as a compelling alternative to attention models for long-range vision tasks, offering input-dependent recurrence with linear complexity. However, most efficient SSM variants reduce computation cost by modifying scan routes, resolutions, or traversal patterns, while largely leaving the recurrent dynamics implicit. Consequently, the model's state-dependent memory behavior is difficult to control, particularly in compact backbones where long scan paths can exceed the effective memory horizon. We propose Token-Conditioned Poles SSM (TCP-SSM), a structured selective SSM framework that improves efficiency while making recurrence dynamics explicit and interpretable through stable poles. TCP-SSM builds each scan operator with 1) real poles that model monotone or sign-alternating decay, and 2) complex-conjugate poles that capture damped oscillatory responses. Using bounded radius and angle modulation, TCP-SSM converts shared base poles into token-dependent poles, allowing each scan step to adapt its memory behavior to the current visual token while preserving pole stability. For practical scalability, we integrate grouped pole sharing with a lightweight low-rank input pathway, yielding an efficient scan operator that preserves linear-time scan complexity. Across image classification, semantic segmentation, and object detection, TCP-SSM reduces SSM computation complexity up to 44% in Vision Mamba-style models while maintaining or surpassing baseline accuracy.
- Abstract(参考訳): 状態空間モデル(SSM)は、長距離視覚タスクの注意モデルに代わる魅力的な代替品として登場し、線形複雑性を伴う入力依存の繰り返しを提供する。
しかしながら、最も効率的なSSM変種は、スキャン経路、解像度、およびトラバースパターンを変更することで計算コストを削減し、リカレントダイナミクスを暗黙的に残している。
したがって、特に長いスキャンパスが効果的なメモリ水平線を超えるようなコンパクトなバックボーンでは、モデルの状態依存メモリの挙動を制御することは困難である。
安定極を通した繰り返し力学を明示的かつ解釈可能とし、効率を向上する構造化選択SSMフレームワークであるToken-Conditioned Poles SSM(TCP-SSM)を提案する。
TCP-SSMは各スキャン演算子を構築する
1)単調または符号交互崩壊をモデル化する実極、及び
2)振動応答を捉える複合共役極。
有界半径と角度変調を用いて、TCP-SSMは共有基底極をトークン依存極に変換し、各スキャンステップがそのメモリ挙動を現在の視覚トークンに適応させ、ポール安定性を保ったままにすることができる。
実用的スケーラビリティのために、グループ化されたポール共有を軽量な低ランク入力経路と統合し、線形時間スキャンの複雑さを保った効率的なスキャン演算子を得る。
画像分類、セマンティックセグメンテーション、オブジェクト検出などを通じて、TCP-SSMは、ベースライン精度を維持したり超えたりしながら、Vision MambaスタイルのモデルでSSM計算の複雑さを最大44%削減する。
関連論文リスト
- DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization [23.899829316926724]
TFL(Temporal Forgery Localization)は、ビデオとオーディオの操作されたセグメントを正確に識別することを目的としており、セキュリティと法医学に強い解釈性を提供する。
最近のステート・スペース・モデル(SSM)は正確な時間的推論において有望であるが、TFLにおけるそれらの使用は曖昧な境界線、希薄な偽造物、限られた長距離モデリングによって妨げられている。
本稿では,これらの課題に対処するため,変形可能な動的機構とリレー機構を備えたSSMを改良したDeformTraceを提案する。
論文 参考訳(メタデータ) (2026-03-05T07:19:50Z) - MS-SSM: A Multi-Scale State Space Model for Efficient Sequence Modeling [60.648359990090846]
状態空間モデル(SSM)は、最近、計算コストのかかるシーケンスモデルに対する効率的な代替手段として注目されている。
本稿では,複数の解像度にまたがるシーケンスダイナミクスを表現するマルチスケールSSMフレームワークを提案し,各解像度を特殊な状態空間ダイナミクスで処理する。
論文 参考訳(メタデータ) (2025-12-29T19:36:28Z) - Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models [68.31088463716269]
状態空間モデル(SSM)における遷移行列の構造的スパースパラメトリゼーションを提案する。
我々の方法PD-SSMは、遷移行列をカラム1ホット行列(P$)と複素数値対角行列(D$)の積としてパラメータ化する。
このモデルは、様々なFSA状態追跡タスクにおいて、現代のSSMの多種多様なバリエーションを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-26T12:46:30Z) - SemaMIL: Semantic-Aware Multiple Instance Learning with Retrieval-Guided State Space Modeling for Whole Slide Images [17.674866281320046]
SemaMILは,スライド画像全体から識別特徴を抽出する適応的手法である。
セマンティックに類似したパッチを、可逆的な置換によってシーケンスでクラスタ化する。
FLOPやパラメータを少なくして最先端のサブタイプ精度を実現する。
論文 参考訳(メタデータ) (2025-08-30T10:13:18Z) - MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture [12.168520751389622]
ハイパースペクトル画像(HSI)分類は、高次元データ、限られたトレーニングサンプル、スペクトル冗長性といった課題に直面している。
本稿では,3D-CNNの局所特徴抽出,Transformerのグローバルモデリング,Mambaの線形シーケンスモデリング機能を統合した新しいMVNetネットワークアーキテクチャを提案する。
IN、UP、KSCデータセットでは、MVNetは分類精度と計算効率の両方で主流のハイパースペクトル画像分類法より優れている。
論文 参考訳(メタデータ) (2025-07-06T14:52:26Z) - MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution [33.457410717030946]
超高解像度ビデオのための最初の状態空間モデルフレームワークであるMambaVSRを提案する。
MambaVSRは共有コンパス構築(SCC)とコンテンツ認識シーケンス化(CAS)を通じて動的相互作用を可能にする
CASモジュールは、学習された空間秩序に沿って時間的特徴をインターリーブすることにより、複数のフレームにまたがる非局所的な類似コンテンツを効果的に調整し集約する。
論文 参考訳(メタデータ) (2025-06-13T13:22:28Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。