論文の概要: SLGTformer: An Attention-Based Approach to Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2212.10746v2
- Date: Fri, 23 Dec 2022 02:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 13:57:37.866505
- Title: SLGTformer: An Attention-Based Approach to Sign Language Recognition
- Title(参考訳): SLGTformer:手話認識のための注意に基づくアプローチ
- Authors: Neil Song, Yu Xiang
- Abstract要約: 手話は習得が困難で、聞き難い人や話せない人にとって重要な障壁となる。
本稿では,時間グラフの自己認識をデコンストラクトした手話認識手法を提案する。
WLASLデータセットにおけるSLformerの有効性を示す。
- 参考スコア(独自算出の注目度): 19.786769414376323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language is the preferred method of communication of deaf or mute
people, but similar to any language, it is difficult to learn and represents a
significant barrier for those who are hard of hearing or unable to speak. A
person's entire frontal appearance dictates and conveys specific meaning.
However, this frontal appearance can be quantified as a temporal sequence of
human body pose, leading to Sign Language Recognition through the learning of
spatiotemporal dynamics of skeleton keypoints. We propose a novel,
attention-based approach to Sign Language Recognition exclusively built upon
decoupled graph and temporal self-attention: the Sign Language Graph Time
Transformer (SLGTformer). SLGTformer first deconstructs spatiotemporal pose
sequences separately into spatial graphs and temporal windows. SLGTformer then
leverages novel Learnable Graph Relative Positional Encodings (LGRPE) to guide
spatial self-attention with the graph neighborhood context of the human
skeleton. By modeling the temporal dimension as intra- and inter-window
dynamics, we introduce Temporal Twin Self-Attention (TTSA) as the combination
of locally-grouped temporal attention (LTA) and global sub-sampled temporal
attention (GSTA). We demonstrate the effectiveness of SLGTformer on the
World-Level American Sign Language (WLASL) dataset, achieving state-of-the-art
performance with an ensemble-free approach on the keypoint modality. The code
is available at https://github.com/neilsong/slt
- Abstract(参考訳): 手話は聴覚障がい者やミュート人のコミュニケーションの手段として好まれるが、どんな言語と同様、習得が困難であり、難聴者や話すことができない者にとって重要な障壁である。
人の正面の外観全体が特定の意味を指示し、伝達する。
しかし、この正面の外観は人体ポーズの時間的シーケンスとして定量化することができ、骨格キーポイントの時空間ダイナミクスの学習を通じて手話認識につながる。
本稿では,手話グラフ時間変換器(slgtformer)を用いて,分離されたグラフと時間的自己注意に基づく手話認識の新たなアプローチを提案する。
SLGTformerは空間グラフと時間ウィンドウに分割して時空間ポーズシーケンスを分解する。
SLGTformerは、新しいLearnerable Graph Relative Positional Encodings(LGRPE)を利用して、人間の骨格のグラフ近傍コンテキストで空間的自己注意を導く。
時間的次元を風内および風間力学としてモデル化することにより,局所的グループ化された時間的注意(LTA)とグローバルなサブサンプリングされた時間的注意(GSTA)の組み合わせとして,TTSA(Temporal Twin Self-Attention)を導入する。
WLASLデータセットにおけるSLGTformerの有効性を実証し、キーポイントのモダリティに対するアンサンブルのないアプローチで最先端のパフォーマンスを実現する。
コードはhttps://github.com/neilsong/sltで入手できる。
関連論文リスト
- Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Learning Long-Term Spatial-Temporal Graphs for Active Speaker Detection [21.512786675773675]
複数の話者によるビデオにおけるアクティブな話者検出は難しい課題である。
本研究では空間時間グラフ学習フレームワークSPELLを提案する。
SPELLは計算コストのかかる完全連結グラフニューラルネットワークに頼ることなく、すべてのノードの長時間の時間的コンテキストを推論することができる。
論文 参考訳(メタデータ) (2022-07-15T23:43:17Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。