論文の概要: USTM: Unified Spatial and Temporal Modeling for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2512.13415v1
- Date: Mon, 15 Dec 2025 15:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.716063
- Title: USTM: Unified Spatial and Temporal Modeling for Continuous Sign Language Recognition
- Title(参考訳): USTM:連続手話認識のための空間的・時間的統一モデリング
- Authors: Ahmed Abul Hasanaath, Hamzah Luqman,
- Abstract要約: 連続手話認識は、ビデオ中のジェスチャーのシーケンスを正確に認識するために、正確なモデリング時間を必要とする。
これらの技術は、細かな手や顔の手がかりを捉えたり、長距離の時間的依存をモデル化するのに失敗する。
これらの制約に対処する統一S時間モデリング(USTM)フレームワークを提案する。
本フレームワークは,複数ストリーム入力や補助モダリティを必要とせずに,RGBビデオからの手話認識を頑健に行えるようにし,時間的・短時間の空間的特徴を捉える。
- 参考スコア(独自算出の注目度): 3.8100688074986095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous sign language recognition (CSLR) requires precise spatio-temporal modeling to accurately recognize sequences of gestures in videos. Existing frameworks often rely on CNN-based spatial backbones combined with temporal convolution or recurrent modules. These techniques fail in capturing fine-grained hand and facial cues and modeling long-range temporal dependencies. To address these limitations, we propose the Unified Spatio-Temporal Modeling (USTM) framework, a spatio-temporal encoder that effectively models complex patterns using a combination of a Swin Transformer backbone enhanced with lightweight temporal adapter with positional embeddings (TAPE). Our framework captures fine-grained spatial features alongside short and long-term temporal context, enabling robust sign language recognition from RGB videos without relying on multi-stream inputs or auxiliary modalities. Extensive experiments on benchmarked datasets including PHOENIX14, PHOENIX14T, and CSL-Daily demonstrate that USTM achieves state-of-the-art performance against RGB-based as well as multi-modal CSLR approaches, while maintaining competitive performance against multi-stream approaches. These results highlight the strength and efficacy of the USTM framework for CSLR. The code is available at https://github.com/gufranSabri/USTM
- Abstract(参考訳): 連続手話認識(CSLR)はビデオ中のジェスチャーの順序を正確に認識するために正確な時空間モデリングを必要とする。
既存のフレームワークは、しばしばCNNベースの空間バックボーンに時間的畳み込みや繰り返しモジュールを組み込んだものに依存している。
これらの技術は、細かな手や顔の手がかりを捉えたり、長距離の時間的依存をモデル化するのに失敗する。
これらの制約に対処するために,Swin Transformerのバックボーンと軽量のテンポラリアダプタ(TAPE)を組み合わせることで,複雑なパターンを効果的にモデル化する時空間エンコーダであるUSTM(Unified Spatio-Temporal Modeling)フレームワークを提案する。
本フレームワークは,複数ストリーム入力や補助モダリティを必要とせずに,RGBビデオからの手話認識を頑健に行えるようにし,時間的・短時間の空間的特徴を捉える。
PHOENIX14、PHOENIX14T、CSL-Dailyといったベンチマークデータセットに関する大規模な実験は、USTMがマルチストリームアプローチに対する競争性能を維持しながら、RGBベースおよびマルチモーダルCSLRアプローチに対して最先端のパフォーマンスを達成することを実証している。
これらの結果は,CSLRにおけるUSTMフレームワークの強度と有効性を強調した。
コードはhttps://github.com/gufranSabri/USTMで公開されている。
関連論文リスト
- TSkel-Mamba: Temporal Dynamic Modeling via State Space Model for Human Skeleton-based Action Recognition [59.99922360648663]
TSkel-Mambaは、空間力学と時間力学の両方を効果的に捉えるハイブリッドトランスフォーマー-Mambaフレームワークである。
MTIモジュールはマルチスケールのCycle演算子を使用して、チャネル間の時間的相互作用をキャプチャする。
論文 参考訳(メタデータ) (2025-12-12T11:55:16Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Adapting LLMs to Time Series Forecasting via Temporal Heterogeneity Modeling and Semantic Alignment [32.41581846555808]
大規模言語モデル(LLM)は、最近、自然言語処理における印象的な能力を実証した。
時間的アライメントのモデル化と意味的アライメントの強化によりLLMに基づく予測を強化する統合フレームワークであるTALONを提案する。
7つの実世界のベンチマークの実験では、TALONはすべてのデータセットで優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-08-10T06:06:19Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Dynamic Spatial-Temporal Aggregation for Skeleton-Aware Sign Language Recognition [10.048809585477555]
スケルトン対応手話認識は, 背景情報の影響を受けないままでいられるため, 人気が高まっている。
現在の手法では、空間グラフモジュールと時空間モジュールを使用して、それぞれ空間的特徴と時空間的特徴をキャプチャする。
本稿では,入力に敏感な連接関係を構築する2つの同時分岐からなる空間構造を提案する。
そこで我々は,複雑な人間のダイナミクスを捉えるために,マルチスケールの時間情報をモデル化する新しい時間モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-19T07:42:57Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Multi-Scale Local-Temporal Similarity Fusion for Continuous Sign
Language Recognition [4.059599144668737]
連続手話認識(continuous sign language recognition)は、手話動画を順序付けられた光沢シーケンスに書き起こす公的な重要なタスクである。
1次元畳み込みネットワーク(1D-CNN)を採用して、シーケンシャルフレームを時間的に融合させることが期待できる方法である。
本稿では,このタスクの時間的類似性を通じて局所的特徴を適応的に融合することを提案する。
論文 参考訳(メタデータ) (2021-07-27T12:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。