論文の概要: Modeling Global Body Configurations in American Sign Language
- arxiv url: http://arxiv.org/abs/2009.01468v1
- Date: Thu, 3 Sep 2020 06:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:18:26.418726
- Title: Modeling Global Body Configurations in American Sign Language
- Title(参考訳): アメリカ手話におけるグローバルボディ構成のモデル化
- Authors: Nicholas Wilkins, Beck Cordes Galbraith, Ifeoma Nwogu
- Abstract要約: アメリカ手話 (American Sign Language, ASL) は、アメリカ合衆国で4番目に一般的に使われている言語である。
ASL(英語: ASL)は、アメリカ合衆国とカナダの英語圏で最も一般的に使われている言語である。
- 参考スコア(独自算出の注目度): 2.8575516056239576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: American Sign Language (ASL) is the fourth most commonly used language in the
United States and is the language most commonly used by Deaf people in the
United States and the English-speaking regions of Canada. Unfortunately, until
recently, ASL received little research. This is due, in part, to its delayed
recognition as a language until William C. Stokoe's publication in 1960.
Limited data has been a long-standing obstacle to ASL research and
computational modeling. The lack of large-scale datasets has prohibited many
modern machine-learning techniques, such as Neural Machine Translation, from
being applied to ASL. In addition, the modality required to capture sign
language (i.e. video) is complex in natural settings (as one must deal with
background noise, motion blur, and the curse of dimensionality). Finally, when
compared with spoken languages, such as English, there has been limited
research conducted into the linguistics of ASL.
We realize a simplified version of Liddell and Johnson's Movement-Hold (MH)
Model using a Probabilistic Graphical Model (PGM). We trained our model on
ASLing, a dataset collected from three fluent ASL signers. We evaluate our PGM
against other models to determine its ability to model ASL. Finally, we
interpret various aspects of the PGM and draw conclusions about ASL phonetics.
The main contributions of this paper are
- Abstract(参考訳): アメリカ手話(アメリカン手話、英: american sign language、asl)は、アメリカ合衆国で4番目によく使われる言語であり、アメリカ合衆国やカナダの英語圏でよく使われる言語である。
残念ながら、最近まで、ASLはほとんど研究されなかった。
これは、1960年にウィリアム・ストコーが出版するまで、言語としての認識が遅れたことによる。
限られたデータは、ASLの研究と計算モデリングの長年の障害であった。
大規模データセットの欠如は、ニューラルネットワーク翻訳など、現代の機械学習技術の多くをASLに適用することを禁じている。
加えて、手話(つまりビデオ)をキャプチャするために必要なモダリティは、自然な設定では複雑である(背景ノイズ、動きのぼやけ、次元の呪いを扱う必要がある)。
最後に、英語などの話し言葉と比較して、ASLの言語学について限定的な研究がなされている。
確率図形モデル (PGM) を用いたLiddell と Johnson's Movement-Hold (MH) Model の簡易版を実現する。
ASLは3つの流線型ASLシグナから収集したデータセットである。
我々はPGMを他のモデルに対して評価し、ASLをモデル化する能力を決定する。
最後に、PGMの様々な側面を解釈し、ASL音声学に関する結論を引き出す。
この論文の主な貢献は
関連論文リスト
- Evaluating Self-Supervised Speech Representations for Indigenous
American Languages [6.235388047623929]
南アメリカの先住民であるケチュア語に対するASRコーパスを提示する。
我々は、Kechua上の大規模なSSLモデルと、低リソースのASR上のGuaraniやBrbriといった6つのネイティブ言語の有効性をベンチマークした。
その結果、最先端のSSLモデルによる驚くほど高い性能を示し、大規模モデルの現実世界データへの一般化可能性を示している。
論文 参考訳(メタデータ) (2023-10-05T16:11:14Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - SignDiff: Learning Diffusion Models for American Sign Language
Production [27.899654531461238]
サイン言語生産の分野には、過去10年間に連続したアメリカ手話生産のためのディープラーニングに基づく大規模で事前訓練されたモデルが欠けていた。
本稿では,人手話話者を骨格のポーズから生成できる2条件拡散事前学習モデルSignDiffを提案する。
我々のASLP法は,手話骨格姿勢の精度と品質を向上させるために,2つの改良されたモジュールと新たな損失関数を提案する。
論文 参考訳(メタデータ) (2023-08-30T15:14:56Z) - SpeechGLUE: How Well Can Self-Supervised Speech Models Capture
Linguistic Knowledge? [39.62926623310278]
音声表現のための自己教師付き学習(SSL)は、様々な下流タスクにうまく適用されている。
本稿では,音声SSL技術が言語知識をうまく捉えることができるかどうかを明らかにすることを目的とする。
論文 参考訳(メタデータ) (2023-06-14T09:04:29Z) - SLABERT Talk Pretty One Day: Modeling Second Language Acquisition with
BERT [0.0]
言語間移動は、話者の母語の言語構造が外国語の獲得に与える影響である。
我々はNLP文献が陰性移行現象に十分な注意を払っていないことを発見した。
そこで本研究では,TransformerベースのSLAモデルを用いたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-05-31T06:22:07Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous
American Sign Language [0.0]
ASLデータセットの最初のバージョンは、30k文、416k単語、18k単語の語彙を合計104時間でリリースしています。
これはビデオの持続時間で現在まで発行されている最大の連続手話データセットである。
論文 参考訳(メタデータ) (2022-10-13T07:08:00Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。