論文の概要: Natural Language-Assisted Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2303.12080v1
- Date: Tue, 21 Mar 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 13:45:48.887987
- Title: Natural Language-Assisted Sign Language Recognition
- Title(参考訳): 自然言語支援手話認識
- Authors: Ronglai Zuo, Fangyun Wei, Brian Mak
- Abstract要約: 自然言語支援手話認識フレームワークを提案する。
グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。
提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
- 参考スコア(独自算出の注目度): 28.64871971445024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign languages are visual languages which convey information by signers'
handshape, facial expression, body movement, and so forth. Due to the inherent
restriction of combinations of these visual ingredients, there exist a
significant number of visually indistinguishable signs (VISigns) in sign
languages, which limits the recognition capacity of vision neural networks. To
mitigate the problem, we propose the Natural Language-Assisted Sign Language
Recognition (NLA-SLR) framework, which exploits semantic information contained
in glosses (sign labels). First, for VISigns with similar semantic meanings, we
propose language-aware label smoothing by generating soft labels for each
training sign whose smoothing weights are computed from the normalized semantic
similarities among the glosses to ease training. Second, for VISigns with
distinct semantic meanings, we present an inter-modality mixup technique which
blends vision and gloss features to further maximize the separability of
different signs under the supervision of blended labels. Besides, we also
introduce a novel backbone, video-keypoint network, which not only models both
RGB videos and human body keypoints but also derives knowledge from sign videos
of different temporal receptive fields. Empirically, our method achieves
state-of-the-art performance on three widely-adopted benchmarks: MSASL, WLASL,
and NMFs-CSL. Codes are available at https://github.com/FangyunWei/SLRT.
- Abstract(参考訳): 手話とは、手話者の手形、表情、体の動きなどによって情報を伝達する視覚言語である。
これらの視覚成分の組み合わせに固有の制限があるため、視覚ニューラルネットワークの認識能力を制限する手話言語には、視覚的に区別できない記号(visigns)が相当数存在する。
この問題を解決するために,グルースに含まれる意味情報を利用する自然言語支援手話認識(NLA-SLR)フレームワークを提案する。
まず,類似意味を持つバイサインに対して,舌間の正規化意味類似性から平滑化重みを算出した訓練符号毎にソフトラベルを生成し,学習を容易にする言語認識ラベル平滑化を提案する。
第2に,異なる意味意味を持つバイサインに対して,視覚特徴と光沢特徴をブレンドし,ブレンドラベルの監督下で異なる符号の分離性をさらに最大化する,モダリティ間ミックスアップ手法を提案する。
さらに、RGBビデオと人体キーポイントの両方をモデル化するだけでなく、異なる時間的受容領域のサインビデオから知識を導き出す新しいバックボーン、ビデオキーポイントネットワークも導入する。
MSASL, WLASL, NMFs-CSL の3つのベンチマークにおいて, 実験により最先端の性能が得られた。
コードはhttps://github.com/FangyunWei/SLRTで公開されている。
関連論文リスト
- Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Learnt Contrastive Concept Embeddings for Sign Recognition [33.72708697077754]
我々は手話と話し言葉のギャップを埋める手話埋め込みを明示的に作成することに注力する。
我々は手話ビデオの言語ラベルに基づく埋め込みの語彙を訓練する。
我々は,NLP法から単語埋め込みを活用可能な概念的類似性損失を開発し,音声言語対応に優れた手話を含む手話埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-18T12:47:18Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Global-local Enhancement Network for NMFs-aware Sign Language
Recognition [135.30357113518127]
グローバルローカル・エンハンスメント・ネットワーク(GLE-Net)という,シンプルで効果的なアーキテクチャを提案する。
2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つは識別可能なきめ細かなキューをキャプチャする。
日常の単語の総語彙サイズが1,067である中国語手話データセットを,手動で認識する最初の中国語手話データセットを紹介した。
論文 参考訳(メタデータ) (2020-08-24T13:28:55Z) - Temporal Accumulative Features for Sign Language Recognition [2.3204178451683264]
我々は,孤立した手話のジェスチャーを認識するための,効率的かつ高速なSLR手法を考案した。
また,手形情報や小規模な逐次ニューラルネットワークを用いて,言語サブユニットの累積特徴のモデリングがベースライン分類結果に基づいて改善されることを実証した。
論文 参考訳(メタデータ) (2020-04-02T19:03:40Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。