論文の概要: Continuous Sign Language Recognition with Correlation Network
- arxiv url: http://arxiv.org/abs/2303.03202v1
- Date: Mon, 6 Mar 2023 15:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:41:17.766545
- Title: Continuous Sign Language Recognition with Correlation Network
- Title(参考訳): 相関ネットワークを用いた連続手話認識
- Authors: Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng
- Abstract要約: 本研究では, フレーム間の物体軌跡を明示的に捕捉し, 利用するための相関ネットワーク (CorrNet) を提案する。
CorrNetは、4つの大規模データセットで新しい最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 6.428695655854854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human body trajectories are a salient cue to identify actions in the video.
Such body trajectories are mainly conveyed by hands and face across consecutive
frames in sign language. However, current methods in continuous sign language
recognition (CSLR) usually process frames independently, thus failing to
capture cross-frame trajectories to effectively identify a sign. To handle this
limitation, we propose correlation network (CorrNet) to explicitly capture and
leverage body trajectories across frames to identify signs. In specific, a
correlation module is first proposed to dynamically compute correlation maps
between the current frame and adjacent frames to identify trajectories of all
spatial patches. An identification module is then presented to dynamically
emphasize the body trajectories within these correlation maps. As a result, the
generated features are able to gain an overview of local temporal movements to
identify a sign. Thanks to its special attention on body trajectories, CorrNet
achieves new state-of-the-art accuracy on four large-scale datasets, i.e.,
PHOENIX14, PHOENIX14-T, CSL-Daily, and CSL. A comprehensive comparison with
previous spatial-temporal reasoning methods verifies the effectiveness of
CorrNet. Visualizations demonstrate the effects of CorrNet on emphasizing human
body trajectories across adjacent frames.
- Abstract(参考訳): 人間の身体の軌跡は、ビデオの中でアクションを識別するための貴重な手がかりです。
このような身体の軌跡は主に手と顔で手話の連続したフレームで伝えられる。
しかしながら、連続手話認識(CSLR)における現在の手法は通常、フレームを独立に処理するため、符号を効果的に識別するためにクロスフレームの軌跡を捕捉できなかった。
この制限に対処するために、フレーム間の身体軌道を明示的に捕捉し、利用して記号を識別する相関ネットワーク(CorrNet)を提案する。
具体的には、まず、現在のフレームと隣接するフレーム間の相関マップを動的に計算し、すべての空間パッチの軌跡を特定するための相関モジュールを提案する。
識別モジュールが提示され、これらの相関マップ内の身体軌跡を動的に強調する。
その結果、生成された特徴は、サインを特定するために局所的な時間運動の概観を得ることができる。
CorrNetは体軌道に特別な注意を払って、4つの大規模データセット(PHOENIX14、PHOENIX14-T、CSL-Daily、CSL)で新しい最先端の精度を実現している。
CorrNetの有効性を検証するため,従来の時空間推論手法との比較を行った。
可視化は、隣接するフレームを横切る人体の軌跡を強調するcorrnetの効果を実証する。
関連論文リスト
- Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - HAGCN : Network Decentralization Attention Based Heterogeneity-Aware
Spatiotemporal Graph Convolution Network for Traffic Signal Forecasting [0.0]
交通信号データに固有の異種特性について検討し,センサ間の隠れ関係を様々な方法で学習する。
本稿では,隣接ノードの隠れ状態を集約する分散化注目グラフ畳み込みネットワーク(HAGCN)を提案する。
論文 参考訳(メタデータ) (2022-09-05T13:45:52Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - DMGCRN: Dynamic Multi-Graph Convolution Recurrent Network for Traffic
Forecasting [7.232141271583618]
以上の問題に対処する新しい動的多重グラフ畳み込み再帰ネットワーク(DMG)を提案する。
距離に基づくグラフを用いて,距離の近いノードから空間情報をキャプチャする。
また,道路間の構造相関を符号化した新しい潜在グラフを構築し,ノードから空間情報をキャプチャする。
論文 参考訳(メタデータ) (2021-12-04T06:51:55Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - Sign language segmentation with temporal convolutional networks [25.661006537351547]
提案手法は3次元畳み込みニューラルネットワーク表現と反復時間セグメント改良を用いて,手話境界のあいまいさを解消する。
本稿では,BSLCORPUS,PHOENIX14,BSL-1Kデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-11-25T19:11:48Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。