Fugu-MT 論文翻訳(概要): Learnt Contrastive Concept Embeddings for Sign Recognition

論文の概要: Learnt Contrastive Concept Embeddings for Sign Recognition

arxiv url: http://arxiv.org/abs/2308.09515v1
Date: Fri, 18 Aug 2023 12:47:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 13:17:45.588870
Title: Learnt Contrastive Concept Embeddings for Sign Recognition
Title（参考訳）: 記号認識のためのコントラスト概念埋め込みの学習
Authors: Ryan Wong, Necati Cihan Camgoz, Richard Bowden
Abstract要約: 我々は手話と話し言葉のギャップを埋める手話埋め込みを明示的に作成することに注力する。我々は手話ビデオの言語ラベルに基づく埋め込みの語彙を訓練する。我々は,NLP法から単語埋め込みを活用可能な概念的類似性損失を開発し,音声言語対応に優れた手話を含む手話埋め込みを生成する。
参考スコア（独自算出の注目度）: 33.72708697077754
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In natural language processing (NLP) of spoken languages, word embeddings have been shown to be a useful method to encode the meaning of words. Sign languages are visual languages, which require sign embeddings to capture the visual and linguistic semantics of sign. Unlike many common approaches to Sign Recognition, we focus on explicitly creating sign embeddings that bridge the gap between sign language and spoken language. We propose a learning framework to derive LCC (Learnt Contrastive Concept) embeddings for sign language, a weakly supervised contrastive approach to learning sign embeddings. We train a vocabulary of embeddings that are based on the linguistic labels for sign video. Additionally, we develop a conceptual similarity loss which is able to utilise word embeddings from NLP methods to create sign embeddings that have better sign language to spoken language correspondence. These learnt representations allow the model to automatically localise the sign in time. Our approach achieves state-of-the-art keypoint-based sign recognition performance on the WLASL and BOBSL datasets.
Abstract（参考訳）: 自然言語処理(NLP)では、単語の埋め込みは単語の意味を符号化するのに有用な方法であることが示されている。手話言語は視覚言語であり、手話の視覚的および言語的意味論を捉えるために手話埋め込みを必要とする。符号認識の一般的なアプローチとは異なり、手話と音声言語のギャップを埋める手話埋め込みを明示的に作成することに注力する。我々は,手話へのLCC(Learnt Contrastive Concept)埋め込みを導出する学習フレームワークを提案する。我々は手話ビデオの言語ラベルに基づく埋め込みの語彙を訓練する。さらに,NLP手法から単語埋め込みを活用可能な概念的類似性損失を開発し,音声言語対応に優れた手話表現を持つ手話埋め込みを生成する。これらの学習表現は、モデルが時間内に自動的にサインをローカライズすることを可能にする。本手法は,wlaslおよびbobslデータセット上で最先端のキーポイントに基づく符号認識性能を実現する。

関連論文リスト

Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。 SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文参考訳（メタデータ） (2024-07-01T13:17:35Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文参考訳（メタデータ） (2023-08-21T15:58:47Z)
Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-21T17:59:57Z)
Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文参考訳（メタデータ） (2022-03-29T08:51:38Z)
Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文参考訳（メタデータ） (2021-03-30T16:39:53Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文参考訳（メタデータ） (2020-10-08T14:12:56Z)
BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。 BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文参考訳（メタデータ） (2020-07-23T16:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。