論文の概要: Challenges for Linguistically-Driven Computer-Based Sign Recognition
from Continuous Signing for American Sign Language
- arxiv url: http://arxiv.org/abs/2311.00762v1
- Date: Wed, 1 Nov 2023 18:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 16:09:26.804772
- Title: Challenges for Linguistically-Driven Computer-Based Sign Recognition
from Continuous Signing for American Sign Language
- Title(参考訳): アメリカ手話における連続署名による言語駆動型手話認識の課題
- Authors: Carol Neidle
- Abstract要約: 本稿では,ASL (American Sign Language) のための言語注釈付きビデオデータの大規模コーパスから得られた知見をもとに,このような課題の概要を述べる。
また、手形や手形認識を促進できる記号の構造における言語規則についても論じている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There have been recent advances in computer-based recognition of isolated,
citation-form signs from video. There are many challenges for such a task, not
least the naturally occurring inter- and intra- signer synchronic variation in
sign production, including sociolinguistic variation in the realization of
certain signs. However, there are several significant factors that make
recognition of signs from continuous signing an even more difficult problem.
This article presents an overview of such challenges, based in part on findings
from a large corpus of linguistically annotated video data for American Sign
Language (ASL). Some linguistic regularities in the structure of signs that can
boost handshape and sign recognition are also discussed.
- Abstract(参考訳): ビデオから孤立した励起形符号をコンピュータで認識する技術は近年進歩している。
このようなタスクには多くの課題があり、特に、特定の記号の実現における社会言語的変化を含む、符号生成において自然に発生するシグナー間およびシグナー内同期変動がある。
しかしながら、継続的な署名からサインを認識することがさらに難しい問題となる重要な要素がいくつかある。
本稿では,ASL (American Sign Language) のための,言語的注釈付きビデオデータの大規模なコーパスから得られた知見をもとに,このような課題の概要を述べる。
また、手形や手形認識を促進できる記号の構造における言語規則についても論じている。
関連論文リスト
- Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - SignBLEU: Automatic Evaluation of Multi-channel Sign Language Translation [3.9711029428461653]
マルチチャネル手話翻訳(MCSLT)という新しいタスクを導入する。
本稿では,複数の信号チャネルを捕捉する新しい測度であるSignBLEUを提案する。
SignBLEUは、競合する指標よりも、人間の判断と常に相関していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T05:01:26Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Topic Detection in Continuous Sign Language Videos [23.43298383445439]
本稿では,手話話題検出の新しい課題について紹介する。
複数のセマンティックドメインにまたがる大規模ビデオデータセットであるHow2Signについて実験を行った。
論文 参考訳(メタデータ) (2022-09-01T19:17:35Z) - Word separation in continuous sign language using isolated signs and
post-processing [47.436298331905775]
連続手話認識のための2段階モデルを提案する。
第1段階では、CNN、SVD、LSTMの組み合わせを含む予測モデルが、孤立した標識で訓練される。
第2段階では、モデルの最初の部分から得られたソフトマックス出力に後処理アルゴリズムを適用する。
論文 参考訳(メタデータ) (2022-04-02T18:34:33Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - All You Need In Sign Language Production [50.3955314892191]
言語認識と生産のサインは、いくつかの重要な課題に対処する必要があります。
本稿では,難聴文化,難聴センター,手話の心理的視点について紹介する。
また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。
論文 参考訳(メタデータ) (2022-01-05T13:45:09Z) - Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。
入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文 参考訳(メタデータ) (2021-03-30T16:39:53Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。