論文の概要: Towards the extraction of robust sign embeddings for low resource sign
language recognition
- arxiv url: http://arxiv.org/abs/2306.17558v2
- Date: Wed, 16 Aug 2023 08:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 16:32:18.262813
- Title: Towards the extraction of robust sign embeddings for low resource sign
language recognition
- Title(参考訳): 低リソース手話認識のためのロバストな手話埋め込みの抽出に向けて
- Authors: Mathieu De Coster, Ellen Rushe, Ruth Holmes, Anthony Ventresque, Joni
Dambre
- Abstract要約: キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。
さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
- 参考スコア(独自算出の注目度): 7.969704867355098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Isolated Sign Language Recognition (SLR) has mostly been applied on datasets
containing signs executed slowly and clearly by a limited group of signers. In
real-world scenarios, however, we are met with challenging visual conditions,
coarticulated signing, small datasets, and the need for signer independent
models. To tackle this difficult problem, we require a robust feature extractor
to process the sign language videos. One could expect human pose estimators to
be ideal candidates. However, due to a domain mismatch with their training sets
and challenging poses in sign language, they lack robustness on sign language
data and image-based models often still outperform keypoint-based models.
Furthermore, whereas the common practice of transfer learning with image-based
models yields even higher accuracy, keypoint-based models are typically trained
from scratch on every SLR dataset. These factors limit their usefulness for
SLR. From the existing literature, it is also not clear which, if any, pose
estimator performs best for SLR. We compare the three most popular pose
estimators for SLR: OpenPose, MMPose and MediaPipe. We show that through
keypoint normalization, missing keypoint imputation, and learning a pose
embedding, we can obtain significantly better results and enable transfer
learning. We show that keypoint-based embeddings contain cross-lingual
features: they can transfer between sign languages and achieve competitive
performance even when fine-tuning only the classifier layer of an SLR model on
a target sign language. We furthermore achieve better performance using
fine-tuned transferred embeddings than models trained only on the target sign
language. The embeddings can also be learned in a multilingual fashion. The
application of these embeddings could prove particularly useful for low
resource sign languages in the future.
- Abstract(参考訳): 孤立手話認識(SLR)はほとんどの場合、限られたシグナーグループによってゆっくりと明確に実行される記号を含むデータセットに適用されている。
しかし、現実のシナリオでは、難しい視覚条件、粗い署名、小さなデータセット、署名者独立モデルの必要性に満足しています。
この難題に対処するためには,手話ビデオの処理に頑健な特徴抽出器が必要である。
人間のポーズ推定が理想的候補になることを期待できる。
しかし、トレーニングセットとのドメインミスマッチや手話での難しいポーズのため、手話データやイメージベースのモデルはキーポイントベースのモデルよりも優れていることが多い。
さらに、画像ベースモデルによる転送学習の一般的な実践は、さらに精度が高いが、キーポイントベースのモデルは、通常、すべてのSLRデータセットをスクラッチからトレーニングする。
これらの因子はSLRの有用性を制限する。
既存の文献から、仮にポーズ推定器がSLRに最適であるかどうかも明らかでない。
我々は、SLRの最も人気のある3つのポーズ推定ツール、OpenPose、MMPose、MediaPipeを比較した。
キーポイント正規化,キーポイントインプテーションの欠如,ポーズ埋め込みの学習により,より優れた結果を得ることができ,転校学習が可能となる。
対象手話言語上のslrモデルの分類層のみを微調整した場合でも、手話言語間を移動でき、競合性能を得ることができる。
さらに,ターゲットの手話でのみトレーニングされたモデルよりも,微調整された組込みによるパフォーマンス向上が期待できる。
埋め込みは多言語で学ぶこともできる。
これらの埋め込みの応用は、将来低リソース手話言語に特に役立つ可能性がある。
関連論文リスト
- Language Representations Can be What Recommenders Need: Findings and Potentials [57.90679739598295]
先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示す。
この結果は、先進言語表現空間と効果的な項目表現空間との同型性を示唆している。
本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。
論文 参考訳(メタデータ) (2024-07-07T17:05:24Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign
Language Recognition [94.30084702921529]
手振りは手話において重要な役割を担っている。
現在の深層学習に基づく手話認識手法は、解釈可能性に欠ける可能性がある。
SLRに先立って手を入れた初の自己教師型事前訓練型SignBERTを導入する。
論文 参考訳(メタデータ) (2021-10-11T16:18:09Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。