論文の概要: STARK: Spatio-Temporal Attention for Representation of Keypoints for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2603.16163v1
- Date: Tue, 17 Mar 2026 06:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.131763
- Title: STARK: Spatio-Temporal Attention for Representation of Keypoints for Continuous Sign Language Recognition
- Title(参考訳): STARK:連続手話認識のためのキーポイント表現のための時空間時空間注意
- Authors: Suvajit Patra, Soumitra Samanta,
- Abstract要約: 本稿では,空間的(キーポイント間)と時間的(ローカルウィンドウ内)の両方の注意スコアを計算する統合的時間的注意ネットワークを提案する。
エンコーダは、既存の最先端モデルよりも約70-80$少ないパラメータを含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous Sign Language Recognition (CSLR) is a crucial task for understanding the languages of deaf communities. Contemporary keypoint-based approaches typically rely on spatio-temporal encoding, where spatial interactions among keypoints are modeled using Graph Convolutional Networks or attention mechanisms, while temporal dynamics are captured using 1D convolutional networks. However, such designs often introduce a large number of parameters in both the encoder and the decoder. This paper introduces a unified spatio-temporal attention network that computes attention scores both spatially (across keypoints) and temporally (within local windows), and aggregates features to produce a local context-aware spatio-temporal representation. The proposed encoder contains approximately $70-80\%$ fewer parameters than existing state-of-the-art models while achieving comparable performance to keypoint-based methods on the Phoenix-14T dataset.
- Abstract(参考訳): CSLR(Continuous Sign Language Recognition)は、聴覚障害者の言語を理解するための重要な課題である。
現代のキーポイントベースのアプローチは一般に時空間符号化に依存し、キーポイント間の空間的相互作用はグラフ畳み込みネットワーク(Graph Convolutional Networks)またはアテンションメカニズムを用いてモデル化される。
しかし、このような設計はしばしばエンコーダとデコーダの両方に多数のパラメータを導入している。
本稿では,空間的(キーポイント全体)と時間的(ローカルウィンドウ内)の両方に注目スコアを計算し,特徴を集約して局所的文脈対応の時空間表現を生成する,一元的時空間アテンションネットワークを提案する。
提案したエンコーダは、既存の最先端モデルよりも約70-80\%$少ないパラメータを含むと同時に、Phoenix-14Tデータセット上のキーポイントベースのメソッドと同等のパフォーマンスを実現している。
関連論文リスト
- Efficient Spatio-Temporal Signal Recognition on Edge Devices Using PointLCA-Net [0.0]
本稿では、ポイントネットの特徴抽出とインメモリコンピューティング能力と時間信号認識のためのニューロモルフィックシステムのエネルギー効率を組み合わせたアプローチを提案する。
PointNetは、推定とトレーニングの両方において、同等のアプローチよりも高い精度とエネルギー負担を著しく低減します。
論文 参考訳(メタデータ) (2024-11-21T20:48:40Z) - NAC-TCN: Temporal Convolutional Networks with Causal Dilated
Neighborhood Attention for Emotion Understanding [60.74434735079253]
畳み込みTCN(NAC-TCN)を用いた近傍注意法を提案する。
これを実現するために、Dilated Neighborhood Attentionの因果バージョンを導入し、畳み込みを組み込んだ。
我々のモデルは、標準的な感情認識データセットに少ないパラメータを必要としながら、TCN、TCL、LSTM、GRUに匹敵する、より優れた、あるいは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-12T18:41:30Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations [72.4716073597902]
本研究では,動的あるいは動いた物体の標準点クラウド表現を学習する手法を提案する。
本稿では, 形状再構成, カメラポーズ推定, 連続時間列再構成, 対応推定など, 様々な応用における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-08-06T17:58:48Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。