論文の概要: StretchySnake: Flexible SSM Training Unlocks Action Recognition Across Spatio-Temporal Scales
- arxiv url: http://arxiv.org/abs/2510.16209v1
- Date: Fri, 17 Oct 2025 20:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.89939
- Title: StretchySnake: Flexible SSM Training Unlocks Action Recognition Across Spatio-Temporal Scales
- Title(参考訳): StretchySnake: フレキシブルSSMトレーニングは、時空間スケール全体でのアクション認識をアンロックする
- Authors: Nyle Siddiqui, Rohit Gupta, Sirnam Swetha, Mubarak Shah,
- Abstract要約: 状態空間モデル(SSM)は、様々なタスクにおけるトランスフォーマーの競合代替として登場した。
ビデオ理解のための現在のトレーニング方法は、トランスフォーマー向けに調整されており、SSMのユニークな属性を完全に活用できない。
フレキシブルトレーニングの5つのバリエーションを紹介し比較し、ビデオSSMの最も効果的な戦略を特定する。
- 参考スコア(独自算出の注目度): 45.517338927751354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State space models (SSMs) have emerged as a competitive alternative to transformers in various tasks. Their linear complexity and hidden-state recurrence make them particularly attractive for modeling long sequences, whereas attention becomes quadratically expensive. However, current training methods for video understanding are tailored towards transformers and fail to fully leverage the unique attributes of SSMs. For example, video models are often trained at a fixed resolution and video length to balance the quadratic scaling of attention cost against performance. Consequently, these models suffer from degraded performance when evaluated on videos with spatial and temporal resolutions unseen during training; a property we call spatio-temporal inflexibility. In the context of action recognition, this severely limits a model's ability to retain performance across both short- and long-form videos. Therefore, we propose a flexible training method that leverages and improves the inherent adaptability of SSMs. Our method samples videos at varying temporal and spatial resolutions during training and dynamically interpolates model weights to accommodate any spatio-temporal scale. This instills our SSM, which we call StretchySnake, with spatio-temporal flexibility and enables it to seamlessly handle videos ranging from short, fine-grained clips to long, complex activities. We introduce and compare five different variants of flexible training, and identify the most effective strategy for video SSMs. On short-action (UCF-101, HMDB-51) and long-action (COIN, Breakfast) benchmarks, StretchySnake outperforms transformer and SSM baselines alike by up to 28%, with strong adaptability to fine-grained actions (SSV2, Diving-48). Therefore, our method provides a simple drop-in training recipe that makes video SSMs more robust, resolution-agnostic, and efficient across diverse action recognition scenarios.
- Abstract(参考訳): 状態空間モデル(SSM)は、様々なタスクにおけるトランスフォーマーの競合代替として登場した。
線形の複雑さと隠れ状態の再発は、長いシーケンスをモデル化するのに特に魅力的であるが、注意は4次的に高価になる。
しかし、現在のビデオ理解のためのトレーニング手法はトランスフォーマー向けに調整されており、SSMのユニークな属性を完全に活用できない。
例えば、ビデオモデルは、パフォーマンスに対する注意コストの2次スケーリングのバランスをとるために、固定解像度とビデオ長で訓練されることが多い。
その結果、これらのモデルは、トレーニング中に見えない空間分解能と時間分解能を持つビデオで評価した場合、劣化する性能に悩まされる。
アクション認識の文脈では、これはショートビデオとロングフォームビデオの両方のパフォーマンスを維持するモデルの能力を著しく制限する。
そこで本研究では,SSMの適応性を活用したフレキシブルな学習手法を提案する。
本手法は,訓練中の時間分解能と空間分解能の異なる映像をサンプリングし,任意の時空間スケールに対応するために動的にモデル重みを補間する。
StretchySnakeと呼ばれるこのSSMには、時空間的な柔軟性があり、短い、きめ細かいクリップから長い、複雑なアクティビティまで、シームレスにビデオを扱うことができます。
フレキシブルトレーニングの5つのバリエーションを紹介し比較し、ビデオSSMの最も効果的な戦略を特定する。
ショートアクション(UCF-101, HMDB-51)とロングアクション(COIN, Breakfast)のベンチマークでは、StretchySnakeはトランスフォーマーとSSMベースラインを最大28%上回り、きめ細かいアクションに強く適応する(SSV2, Diving-48)。
そこで本手法は,多様なアクション認識シナリオに対して,ビデオSSMをより堅牢で,解像度に依存しない,効率的にするための簡易なドロップイントレーニングレシピを提供する。
関連論文リスト
- ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - A Temporal Modeling Framework for Video Pre-Training on Video Instance Segmentation [32.65111815620319]
我々は、VISモデルを強化するための新しいビデオ事前学習手法を提案する。
私たちのイノベーションは、事前学習と微調整の段階の違いを減らすことに焦点を当てています。
提案手法は,OVISデータセットの平均精度を4.0%向上させる。
論文 参考訳(メタデータ) (2025-03-22T07:01:25Z) - VideoMerge: Towards Training-free Long Video Generation [46.108622251662176]
長いビデオ生成は、コンピュータビジョンにおける挑戦的で魅力的なトピックであり続けている。
本稿では,短時間のビデオのマージにシームレスに適応できるトレーニングフリーのVideoMergeを提案する。
論文 参考訳(メタデータ) (2025-03-13T00:47:59Z) - MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection [11.534493974662304]
未トリミングビデオにおける時間的行動検出(TAD)は、長期保存ビデオを効率的に処理できるモデルを必要とする。
我々は,多スケールテンポラルマンバ (MS-Temba) を提案する。
MS-Tembaは、長期ビデオの最先端のパフォーマンスを達成し、短いセグメントで競争力を維持し、モデルの複雑さを88%削減する。
論文 参考訳(メタデータ) (2025-01-10T17:52:47Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。