論文の概要: Continuous Sign Language Recognition with Correlation Network
- arxiv url: http://arxiv.org/abs/2303.03202v2
- Date: Wed, 8 Mar 2023 14:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 16:30:50.514499
- Title: Continuous Sign Language Recognition with Correlation Network
- Title(参考訳): 相関ネットワークを用いた連続手話認識
- Authors: Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng
- Abstract要約: 本研究では, フレーム間の物体軌跡を明示的に捕捉し, 利用するための相関ネットワーク (CorrNet) を提案する。
CorrNetは、4つの大規模データセットで新しい最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 6.428695655854854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human body trajectories are a salient cue to identify actions in the video.
Such body trajectories are mainly conveyed by hands and face across consecutive
frames in sign language. However, current methods in continuous sign language
recognition (CSLR) usually process frames independently, thus failing to
capture cross-frame trajectories to effectively identify a sign. To handle this
limitation, we propose correlation network (CorrNet) to explicitly capture and
leverage body trajectories across frames to identify signs. In specific, a
correlation module is first proposed to dynamically compute correlation maps
between the current frame and adjacent frames to identify trajectories of all
spatial patches. An identification module is then presented to dynamically
emphasize the body trajectories within these correlation maps. As a result, the
generated features are able to gain an overview of local temporal movements to
identify a sign. Thanks to its special attention on body trajectories, CorrNet
achieves new state-of-the-art accuracy on four large-scale datasets, i.e.,
PHOENIX14, PHOENIX14-T, CSL-Daily, and CSL. A comprehensive comparison with
previous spatial-temporal reasoning methods verifies the effectiveness of
CorrNet. Visualizations demonstrate the effects of CorrNet on emphasizing human
body trajectories across adjacent frames.
- Abstract(参考訳): 人間の身体の軌跡は、ビデオの中でアクションを識別するための貴重な手がかりです。
このような身体の軌跡は主に手と顔で手話の連続したフレームで伝えられる。
しかしながら、連続手話認識(CSLR)における現在の手法は通常、フレームを独立に処理するため、符号を効果的に識別するためにクロスフレームの軌跡を捕捉できなかった。
この制限に対処するために、フレーム間の身体軌道を明示的に捕捉し、利用して記号を識別する相関ネットワーク(CorrNet)を提案する。
具体的には、まず、現在のフレームと隣接するフレーム間の相関マップを動的に計算し、すべての空間パッチの軌跡を特定するための相関モジュールを提案する。
識別モジュールが提示され、これらの相関マップ内の身体軌跡を動的に強調する。
その結果、生成された特徴は、サインを特定するために局所的な時間運動の概観を得ることができる。
CorrNetは体軌道に特別な注意を払って、4つの大規模データセット(PHOENIX14、PHOENIX14-T、CSL-Daily、CSL)で新しい最先端の精度を実現している。
CorrNetの有効性を検証するため,従来の時空間推論手法との比較を行った。
可視化は、隣接するフレームを横切る人体の軌跡を強調するcorrnetの効果を実証する。
関連論文リスト
- Local All-Pair Correspondence for Point Tracking [59.76186266230608]
ビデオシーケンス間の任意の点(TAP)を追跡するタスクのために設計された,高精度かつ効率的なモデルであるLocoTrackを紹介する。
LocoTrackは、すべてのTAP-Vidベンチマークで未整合の精度を実現し、現在の最先端の約6倍の速度で動作している。
論文 参考訳(メタデータ) (2024-07-22T06:49:56Z) - CorrNet+: Sign Language Recognition and Translation via Spatial-Temporal Correlation [16.961613400566474]
本稿では,複数のフレームにまたがる身体軌跡を明確に識別する空間時間相関ネットワークCorrNet+を提案する。
統一モデルとして、CorrNet+は2つの広範囲な手話理解タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-17T06:57:57Z) - TCNet: Continuous Sign Language Recognition from Trajectories and Correlated Regions [10.954210339694841]
連続手話認識(CSL)における鍵は、入力から経時的に長距離空間的相互作用を効率的にキャプチャする。
トラジェクトリと時間的関連領域から映像情報トラジェクトリを効果的にモデル化するハイブリッドネットワークTCNetを提案する。
PHOENIX14, PHOENIX14-T, CSL, CSLの4つの大規模データセットについて実験を行った。
論文 参考訳(メタデータ) (2024-03-18T14:20:17Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - HAGCN : Network Decentralization Attention Based Heterogeneity-Aware
Spatiotemporal Graph Convolution Network for Traffic Signal Forecasting [0.0]
交通信号データに固有の異種特性について検討し,センサ間の隠れ関係を様々な方法で学習する。
本稿では,隣接ノードの隠れ状態を集約する分散化注目グラフ畳み込みネットワーク(HAGCN)を提案する。
論文 参考訳(メタデータ) (2022-09-05T13:45:52Z) - DMGCRN: Dynamic Multi-Graph Convolution Recurrent Network for Traffic
Forecasting [7.232141271583618]
以上の問題に対処する新しい動的多重グラフ畳み込み再帰ネットワーク(DMG)を提案する。
距離に基づくグラフを用いて,距離の近いノードから空間情報をキャプチャする。
また,道路間の構造相関を符号化した新しい潜在グラフを構築し,ノードから空間情報をキャプチャする。
論文 参考訳(メタデータ) (2021-12-04T06:51:55Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Sign language segmentation with temporal convolutional networks [25.661006537351547]
提案手法は3次元畳み込みニューラルネットワーク表現と反復時間セグメント改良を用いて,手話境界のあいまいさを解消する。
本稿では,BSLCORPUS,PHOENIX14,BSL-1Kデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-11-25T19:11:48Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。