論文の概要: Improving Continuous Sign Language Recognition with Cross-Lingual Signs
- arxiv url: http://arxiv.org/abs/2308.10809v1
- Date: Mon, 21 Aug 2023 15:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 12:37:19.855895
- Title: Improving Continuous Sign Language Recognition with Cross-Lingual Signs
- Title(参考訳): 言語横断符号による連続手話認識の改善
- Authors: Fangyun Wei, Yutong Chen
- Abstract要約: 本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
- 参考スコア(独自算出の注目度): 29.077175863743484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work dedicates to continuous sign language recognition (CSLR), which is
a weakly supervised task dealing with the recognition of continuous signs from
videos, without any prior knowledge about the temporal boundaries between
consecutive signs. Data scarcity heavily impedes the progress of CSLR. Existing
approaches typically train CSLR models on a monolingual corpus, which is orders
of magnitude smaller than that of speech recognition. In this work, we explore
the feasibility of utilizing multilingual sign language corpora to facilitate
monolingual CSLR. Our work is built upon the observation of cross-lingual
signs, which originate from different sign languages but have similar visual
signals (e.g., hand shape and motion). The underlying idea of our approach is
to identify the cross-lingual signs in one sign language and properly leverage
them as auxiliary training data to improve the recognition capability of
another. To achieve the goal, we first build two sign language dictionaries
containing isolated signs that appear in two datasets. Then we identify the
sign-to-sign mappings between two sign languages via a well-optimized isolated
sign language recognition model. At last, we train a CSLR model on the
combination of the target data with original labels and the auxiliary data with
mapped labels. Experimentally, our approach achieves state-of-the-art
performance on two widely-used CSLR datasets: Phoenix-2014 and Phoenix-2014T.
- Abstract(参考訳): 連続手話認識(continuous sign language recognition, CSLR)は、連続手話間の時間的境界に関する事前の知識が無く、ビデオからの連続手話認識を扱う弱い教師付きタスクである。
データ不足はCSLRの進行を著しく妨げている。
既存のアプローチでは、音声認識よりも桁違い小さい単言語コーパスでCSLRモデルを訓練するのが一般的である。
本研究では,多言語手話コーパスを用いた単言語CSLRの実現可能性について検討する。
我々の研究は、異なる手話に由来するが類似した視覚信号(例えば、手の形や動き)を持つ言語間記号の観察に基づいている。
提案手法の根底にある考え方は、ある手話における言語間符号を識別し、それを補助訓練データとして適切に活用して、他者の認識能力を向上させることである。
目的を達成するため、まず2つのデータセットに出現する孤立した記号を含む2つの手話辞書を構築した。
次に、最適化された孤立手話認識モデルを用いて、2つの手話間の手話間マッピングを同定する。
最終的に、ターゲットデータと元のラベルと、マッピングされたラベルによる補助データの組み合わせに基づいて、cslrモデルをトレーニングする。
実験により,Phoenix-2014とPhoenix-2014Tの2つの広く使われているCSLRデータセットに対して,最先端の性能を実現する。
関連論文リスト
- Learnt Contrastive Concept Embeddings for Sign Recognition [33.72708697077754]
我々は手話と話し言葉のギャップを埋める手話埋め込みを明示的に作成することに注力する。
我々は手話ビデオの言語ラベルに基づく埋め込みの語彙を訓練する。
我々は,NLP法から単語埋め込みを活用可能な概念的類似性損失を開発し,音声言語対応に優れた手話を含む手話埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-18T12:47:18Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive
Learning [38.83062453145388]
手話検索は、テキスト・トゥ・サイン・ビデオ(T2V)検索とサイン・ビデオ・トゥ・テキスト(V2T)検索の2つのサブタスクで構成される。
我々は手話と自然言語の両方の言語特性を考慮し、さらに粒度の細かい言語間マッピングを同時に同定する。
我々のフレームワークは、様々なデータセットに対して大きなマージンで先駆的手法より優れています。
論文 参考訳(メタデータ) (2023-03-22T17:59:59Z) - Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。
グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。
提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。
本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2022-05-24T13:40:45Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。