論文の概要: Context Matters: Self-Attention for Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2101.04632v1
- Date: Tue, 12 Jan 2021 17:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:54:42.268912
- Title: Context Matters: Self-Attention for Sign Language Recognition
- Title(参考訳): 文脈問題:手話認識のための自己認識
- Authors: Fares Ben Slimane and Mohamed Bouguessa
- Abstract要約: 本稿では,継続的署名言語認識の課題に対する注目ネットワークを提案する。
符号言語のモダリティをモデル化するために、データの共依存ストリームを利用する。
モデルが支配的な手と顔の領域の周りを回転する重要な手話コンポーネントを識別することができることがわかります。
- 参考スコア(独自算出の注目度): 1.005130974691351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an attentional network for the task of Continuous Sign
Language Recognition. The proposed approach exploits co-independent streams of
data to model the sign language modalities. These different channels of
information can share a complex temporal structure between each other. For that
reason, we apply attention to synchronize and help capture entangled
dependencies between the different sign language components. Even though Sign
Language is multi-channel, handshapes represent the central entities in sign
interpretation. Seeing handshapes in their correct context defines the meaning
of a sign. Taking that into account, we utilize the attention mechanism to
efficiently aggregate the hand features with their appropriate spatio-temporal
context for better sign recognition. We found that by doing so the model is
able to identify the essential Sign Language components that revolve around the
dominant hand and the face areas. We test our model on the benchmark dataset
RWTH-PHOENIX-Weather 2014, yielding competitive results.
- Abstract(参考訳): 本稿では,連続手話認識のための注意ネットワークを提案する。
提案手法は,手話のモダリティをモデル化するために,共依存データストリームを利用する。
これらの異なる情報チャネルは、互いに複雑な時間構造を共有することができる。
そのため、私たちは同期に注意を払い、異なる手話コンポーネント間の絡み合った依存関係を捉えるのに役立ちます。
手話はマルチチャネルであるにもかかわらず、手形は手話解釈の中心的な実体を表す。
正しい文脈で手形を見ることは、記号の意味を定義する。
これを考慮し、注意機構を用いて、手の特徴を適切な時空間で効率的に集約し、より優れた手話認識を実現する。
これによってモデルは、支配的な手と顔の領域を中心に回転する重要な手話コンポーネントを識別できることが分かりました。
ベンチマークデータセットであるRWTH-PHOENIX-Weather 2014でテストを行い、競争結果を得た。
関連論文リスト
- MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。
本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2022-05-24T13:40:45Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Global-local Enhancement Network for NMFs-aware Sign Language
Recognition [135.30357113518127]
グローバルローカル・エンハンスメント・ネットワーク(GLE-Net)という,シンプルで効果的なアーキテクチャを提案する。
2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つは識別可能なきめ細かなキューをキャプチャする。
日常の単語の総語彙サイズが1,067である中国語手話データセットを,手動で認識する最初の中国語手話データセットを紹介した。
論文 参考訳(メタデータ) (2020-08-24T13:28:55Z) - Temporal Accumulative Features for Sign Language Recognition [2.3204178451683264]
我々は,孤立した手話のジェスチャーを認識するための,効率的かつ高速なSLR手法を考案した。
また,手形情報や小規模な逐次ニューラルネットワークを用いて,言語サブユニットの累積特徴のモデリングがベースライン分類結果に基づいて改善されることを実証した。
論文 参考訳(メタデータ) (2020-04-02T19:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。