論文の概要: TCNet: Continuous Sign Language Recognition from Trajectories and Correlated Regions
- arxiv url: http://arxiv.org/abs/2403.11818v1
- Date: Mon, 18 Mar 2024 14:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:10:10.226033
- Title: TCNet: Continuous Sign Language Recognition from Trajectories and Correlated Regions
- Title(参考訳): TCNet:軌道と関連地域からの連続手話認識
- Authors: Hui Lu, Albert Ali Salah, Ronald Poppe,
- Abstract要約: 連続手話認識(CSL)における鍵は、入力から経時的に長距離空間的相互作用を効率的にキャプチャする。
トラジェクトリと時間的関連領域から映像情報トラジェクトリを効果的にモデル化するハイブリッドネットワークTCNetを提案する。
PHOENIX14, PHOENIX14-T, CSL, CSLの4つの大規模データセットについて実験を行った。
- 参考スコア(独自算出の注目度): 10.954210339694841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in continuous sign language recognition (CSLR) is to efficiently capture long-range spatial interactions over time from the video input. To address this challenge, we propose TCNet, a hybrid network that effectively models spatio-temporal information from Trajectories and Correlated regions. TCNet's trajectory module transforms frames into aligned trajectories composed of continuous visual tokens. In addition, for a query token, self-attention is learned along the trajectory. As such, our network can also focus on fine-grained spatio-temporal patterns, such as finger movements, of a specific region in motion. TCNet's correlation module uses a novel dynamic attention mechanism that filters out irrelevant frame regions. Additionally, it assigns dynamic key-value tokens from correlated regions to each query. Both innovations significantly reduce the computation cost and memory. We perform experiments on four large-scale datasets: PHOENIX14, PHOENIX14-T, CSL, and CSL-Daily, respectively. Our results demonstrate that TCNet consistently achieves state-of-the-art performance. For example, we improve over the previous state-of-the-art by 1.5% and 1.0% word error rate on PHOENIX14 and PHOENIX14-T, respectively.
- Abstract(参考訳): 連続手話認識(CSLR)における鍵となる課題は、ビデオ入力から長時間にわたる空間的相互作用を効率的に捉えることである。
この課題に対処するために,トラジェクトリや相関領域からの時空間情報を効果的にモデル化するハイブリッドネットワークTCNetを提案する。
TCNetのトラジェクトリモジュールは、フレームを連続的な視覚トークンからなる整列トラジェクトリに変換する。
さらに、クエリトークンに対しては、トラジェクトリに沿って自己アテンションが学習される。
これにより,動作中の特定の領域の指の動きなどの微細な時空間パターンにも注目できる。
TCNetの相関モジュールは、無関係なフレーム領域をフィルタリングする新しいダイナミックアテンション機構を使用している。
さらに、相関領域から動的キー値トークンを各クエリに割り当てる。
どちらの革新も計算コストとメモリを大幅に削減する。
PHOENIX14, PHOENIX14-T, CSL, CSL-Dailyの4つの大規模データセットの実験を行った。
我々の結果は,TCNetが常に最先端のパフォーマンスを達成していることを示している。
例えば、PHOENIX14とPHOENIX14-Tの単語誤り率をそれぞれ1.5%、1.0%改善する。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - NAC-TCN: Temporal Convolutional Networks with Causal Dilated
Neighborhood Attention for Emotion Understanding [60.74434735079253]
畳み込みTCN(NAC-TCN)を用いた近傍注意法を提案する。
これを実現するために、Dilated Neighborhood Attentionの因果バージョンを導入し、畳み込みを組み込んだ。
我々のモデルは、標準的な感情認識データセットに少ないパラメータを必要としながら、TCN、TCL、LSTM、GRUに匹敵する、より優れた、あるいは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-12T18:41:30Z) - Fully-Connected Spatial-Temporal Graph for Multivariate Time-Series Data [50.84488941336865]
完全時空間グラフニューラルネットワーク(FC-STGNN)という新しい手法を提案する。
グラフ構築のために、時間的距離に基づいて、すべてのタイムスタンプにセンサーを接続する減衰グラフを設計する。
グラフ畳み込みのために,移動プールGNN層を用いたFCグラフ畳み込みを考案し,ST依存性を効果的に把握し,効率的な表現を学習する。
論文 参考訳(メタデータ) (2023-09-11T08:44:07Z) - ESGCN: Edge Squeeze Attention Graph Convolutional Network for Traffic
Flow Forecasting [15.475463516901938]
本稿では,複数の地域でのトラフィックフローを予測するネットワークエッジ・スキーズ・コンボリューション・ネットワーク(ESCN)を提案する。
ESGCNは、4つの現実世界のデータセットに対して大きなマージンで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-03T04:47:42Z) - Continuous Sign Language Recognition with Correlation Network [6.428695655854854]
本研究では, フレーム間の物体軌跡を明示的に捕捉し, 利用するための相関ネットワーク (CorrNet) を提案する。
CorrNetは、4つの大規模データセットで新しい最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-03-06T15:02:12Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Traffic Flow Forecasting with Spatial-Temporal Graph Diffusion Network [39.65520262751766]
我々は新しい交通予測フレームワーク-時空間グラフ拡散ネットワーク(ST-GDN)を開発した。
特にST-GDNは階層的に構造化されたグラフニューラルネットワークアーキテクチャであり、局所的な地域的な地理的依存関係だけでなく、グローバルな視点から空間的意味論も学習する。
複数の実生活トラフィックデータセットの実験では、ST-GDNは最先端のベースラインの異なるタイプよりも優れていることが示されている。
論文 参考訳(メタデータ) (2021-10-08T11:19:06Z) - Space Meets Time: Local Spacetime Neural Network For Traffic Flow
Forecasting [11.495992519252585]
このような相関関係は普遍的であり、交通流において重要な役割を担っていると我々は主張する。
交通センサの局所的時空間コンテキストを構築するための新しい時空間学習フレームワークを提案する。
提案したSTNNモデルは、目に見えない任意のトラフィックネットワークに適用できる。
論文 参考訳(メタデータ) (2021-09-11T09:04:35Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。