論文の概要: State Space Prompting via Gathering and Spreading Spatio-Temporal Information for Video Understanding
- arxiv url: http://arxiv.org/abs/2510.12160v1
- Date: Tue, 14 Oct 2025 05:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.196845
- Title: State Space Prompting via Gathering and Spreading Spatio-Temporal Information for Video Understanding
- Title(参考訳): 映像理解のための時空間情報収集と拡散による状態空間のプロンプト
- Authors: Jiahuan Zhou, Kai Zhu, Zhenyu Cui, Zichen Liu, Xu Zou, Gang Hua,
- Abstract要約: 本稿では,映像理解のためのステートスペース・プロンプティング(SSP)手法を提案する。
SSPはフレーム内のプロンプトを組み合わせて、ビデオ内の重要な時間情報を集約し、伝達する。
我々のSSPは、既存のSOTA法を平均2.76%上回っている。
- 参考スコア(独自算出の注目度): 50.866929044215965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, pre-trained state space models have shown great potential for video classification, which sequentially compresses visual tokens in videos with linear complexity, thereby improving the processing efficiency of video data while maintaining high performance. To apply powerful pre-trained models to downstream tasks, prompt learning is proposed to achieve efficient downstream task adaptation with only a small number of fine-tuned parameters. However, the sequentially compressed visual prompt tokens fail to capture the spatial and temporal contextual information in the video, thus limiting the effective propagation of spatial information within a video frame and temporal information between frames in the state compression model and the extraction of discriminative information. To tackle the above issue, we proposed a State Space Prompting (SSP) method for video understanding, which combines intra-frame and inter-frame prompts to aggregate and propagate key spatiotemporal information in the video. Specifically, an Intra-Frame Gathering (IFG) module is designed to aggregate spatial key information within each frame. Besides, an Inter-Frame Spreading (IFS) module is designed to spread discriminative spatio-temporal information across different frames. By adaptively balancing and compressing key spatio-temporal information within and between frames, our SSP effectively propagates discriminative information in videos in a complementary manner. Extensive experiments on four video benchmark datasets verify that our SSP significantly outperforms existing SOTA methods by 2.76% on average while reducing the overhead of fine-tuning parameters.
- Abstract(参考訳): 近年、事前訓練された状態空間モデルは、ビデオ内の視覚トークンを線形複雑に逐次圧縮し、高い性能を維持しながら、映像データの処理効率を向上するビデオ分類に大きな可能性を示している。
下流タスクに強力な事前学習モデルを適用するために,少数の微調整パラメータのみを用いて,効率的な下流タスク適応を実現するために,迅速な学習を提案する。
しかし、逐次圧縮された視覚的プロンプトトークンは、映像内の空間的・時間的文脈的情報をキャプチャできないため、映像フレーム内の空間的情報と状態圧縮モデル内のフレーム間の時間的情報と識別情報の抽出の効果的な伝播が制限される。
そこで本研究では,フレーム内とフレーム間プロンプトを組み合わせて,映像中の時空間情報を集約・伝播する,映像理解のためのステートスペース・プロンプティング(SSP)手法を提案する。
具体的には、フレーム内ガザリング(IFG)モジュールは、各フレーム内の空間キー情報を集約するように設計されている。
さらに、IFS(Inter-Frame Spreading)モジュールは、異なるフレームに識別時空間情報を分散するように設計されている。
フレーム内およびフレーム間における鍵時空間情報の適応的バランスと圧縮により,SSPは映像中の識別情報を相補的に効果的に伝播する。
4つのビデオベンチマークデータセットの大規模な実験により、SSPは既存のSOTAメソッドを平均で2.76%上回り、微調整パラメータのオーバーヘッドを低減した。
関連論文リスト
- KFFocus: Highlighting Keyframes for Enhanced Video Understanding [33.69757683688046]
KFFocusは,ビデオトークンを効率よく圧縮し,映像フレーム内に存在する情報的コンテキストを強調する手法である。
KFFocusは、コンテキスト関連性に基づいてフレームに様々な凝縮率を割り当てることで、情報コンテンツの詳細を保存しつつ、トークンの冗長性を効率的に低減する。
また,ビデオフレーム間の時間的関係と各フレーム内の空間構造をエンコードするマルチモーダルモデリングモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-12T14:57:03Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Continuous Space-Time Video Super-Resolution Utilizing Long-Range
Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。
本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-26T08:02:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。