論文の概要: RS-SSM: Refining Forgotten Specifics in State Space Model for Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2603.24295v1
- Date: Wed, 25 Mar 2026 13:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.309886
- Title: RS-SSM: Refining Forgotten Specifics in State Space Model for Video Semantic Segmentation
- Title(参考訳): RS-SSM:ビデオセマンティックセグメンテーションのための状態空間モデルにおける精密化
- Authors: Kai Zhu, Zhenyu Cui, Zehua Zang, Jiahuan Zhou,
- Abstract要約: ビデオセマンティック(VSS)は、セマンティックオブジェクトのセグメンテーションにおいて時間的一貫性を維持するためにピクセルレベルのモデリング機能を必要とする。
本稿では,忘れられた時間的詳細を補完的に精錬する,具体的状態空間モデル手法を提案する。
我々のRS-SSMは高い計算効率を維持しながら最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 30.895268811344142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, state space models have demonstrated efficient video segmentation through linear-complexity state space compression. However, Video Semantic Segmentation (VSS) requires pixel-level spatiotemporal modeling capabilities to maintain temporal consistency in segmentation of semantic objects. While state space models can preserve common semantic information during state space compression, the fixed-size state space inevitably forgets specific information, which limits the models' capability for pixel-level segmentation. To tackle the above issue, we proposed a Refining Specifics State Space Model approach (RS-SSM) for video semantic segmentation, which performs complementary refining of forgotten spatiotemporal specifics. Specifically, a Channel-wise Amplitude Perceptron (CwAP) is designed to extract and align the distribution characteristics of specific information in the state space. Besides, a Forgetting Gate Information Refiner (FGIR) is proposed to adaptively invert and refine the forgetting gate matrix in the state space model based on the specific information distribution. Consequently, our RS-SSM leverages the inverted forgetting gate to complementarily refine the specific information forgotten during state space compression, thereby enhancing the model's capability for spatiotemporal pixel-level segmentation. Extensive experiments on four VSS benchmarks demonstrate that our RS-SSM achieves state-of-the-art performance while maintaining high computational efficiency. The code is available at https://github.com/zhoujiahuan1991/CVPR2026-RS-SSM.
- Abstract(参考訳): 近年、状態空間モデルは線形複雑状態空間圧縮による効率的な映像分割を実証している。
しかしながら、ビデオセマンティックセグメンテーション(VSS)は、セグメンテーションにおける時間的一貫性を維持するためにピクセルレベルの時空間モデリング機能を必要とする。
状態空間モデルは、状態空間の圧縮中に共通の意味情報を保存できるが、固定サイズの状態空間は必然的に特定の情報を忘れ、ピクセルレベルのセグメンテーションの能力を制限する。
以上の課題に対処するため,ビデオセマンティックセグメンテーションのためのRefining Specifics State Space Model (RS-SSM) を提案し,その際,忘れられた時空間の補的精錬を行う。
具体的には、CwAP(Channel-wise Amplitude Perceptron)は、状態空間における特定の情報の分布特性を抽出し、整列するように設計されている。
さらに,特定の情報分布に基づく状態空間モデルにおいて,忘れるゲート行列を適応的に反転・洗練するために,フォッティングゲート情報精錬器(FGIR)を提案する。
その結果, RS-SSMは, 逆補正ゲートを利用して, 状態空間圧縮時に忘れられた特定の情報を補完的に洗練し, 時空間レベルのセグメンテーション能力を向上させる。
4つのVSSベンチマークの大規模な実験により、我々のRS-SSMは高い計算効率を維持しながら最先端の性能を達成することを示した。
コードはhttps://github.com/zhoujiahuan 1991/CVPR2026-RS-SSMで公開されている。
関連論文リスト
- SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs [39.73103140338364]
SPARROW(SPARROW)は、2つのキーコンポーネントを通して空間的精度と時間的安定性を統一するビデオMLLMである。
SPARROWは、30,646のビデオと45,231のQ&Aペアからなる、キュレートされた参照ビデオデータセットによってサポートされている。
6つのベンチマークで一貫したゲインを提供し、RVOSでは+8.9 J&F、ビジュアルグラウンドでは+5 mIoU、GCGでは+5.4 CLAIRに改善された。
論文 参考訳(メタデータ) (2026-03-12T18:59:57Z) - Few-Shot Video Object Segmentation in X-Ray Angiography Using Local Matching and Spatio-Temporal Consistency Loss [13.850743997507488]
探索空間を最も近いピクセルに制限する局所マッチング戦略を用いた新しいFSVOSモデルを提案する。
具体的には、動的に異なるサンプリング領域を実現できる非パラメトリックサンプリング機構を実装した。
この研究は、幅広い臨床応用のための強化されたポテンシャルを提供する。
論文 参考訳(メタデータ) (2026-01-02T21:26:28Z) - State Space Prompting via Gathering and Spreading Spatio-Temporal Information for Video Understanding [50.866929044215965]
本稿では,映像理解のためのステートスペース・プロンプティング(SSP)手法を提案する。
SSPはフレーム内のプロンプトを組み合わせて、ビデオ内の重要な時間情報を集約し、伝達する。
我々のSSPは、既存のSOTA法を平均2.76%上回っている。
論文 参考訳(メタデータ) (2025-10-14T05:30:36Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - MEGAN: Memory Enhanced Graph Attention Network for Space-Time Video
Super-Resolution [8.111645835455658]
時空ビデオスーパー解像度(STVSR)は、対応する低フレームレートの低解像度ビデオシーケンスから高解像度ビデオシーケンスを構築することを目的としている。
近年の時空超解像における時空間情報の考察の成功に触発されて,本研究の主な目的は空間的・時空間的相関を十分に考慮することである。
論文 参考訳(メタデータ) (2021-10-28T17:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。