Fugu-MT 論文翻訳(概要): Visual Methods for Sign Language Recognition: A Modality-Based Review

論文の概要: Visual Methods for Sign Language Recognition: A Modality-Based Review

arxiv url: http://arxiv.org/abs/2009.10370v1
Date: Tue, 22 Sep 2020 07:56:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-15 21:59:44.303706
Title: Visual Methods for Sign Language Recognition: A Modality-Based Review
Title（参考訳）: 手話認識のための視覚的手法:モダリティに基づくレビュー
Authors: Bassem Seddik and Najoua Essoukri Ben Amara
Abstract要約: 連続したマルチモーダルストリームからの手話による視覚認識は、依然として最も困難な分野の1つである。人間の行動認識の最近の進歩は、大量のデータからのGPUベースの学習の上昇を活用している。そして、聴覚障害者や聴覚障害者のためのインタラクティブなサービスを作る傾向にある。
参考スコア（独自算出の注目度）: 1.332560004325655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sign language visual recognition from continuous multi-modal streams is still one of the most challenging fields. Recent advances in human actions recognition are exploiting the ascension of GPU-based learning from massive data, and are getting closer to human-like performances. They are then prone to creating interactive services for the deaf and hearing-impaired communities. A population that is expected to grow considerably in the years to come. This paper aims at reviewing the human actions recognition literature with the sign-language visual understanding as a scope. The methods analyzed will be mainly organized according to the different types of unimodal inputs exploited, their relative multi-modal combinations and pipeline steps. In each section, we will detail and compare the related datasets, approaches then distinguish the still open contribution paths suitable for the creation of sign language related services. Special attention will be paid to the approaches and commercial solutions handling facial expressions and continuous signing.
Abstract（参考訳）: 連続するマルチモーダルストリームからの手話の視覚認識は、依然として最も難しい分野の1つである。人間の行動認識の最近の進歩は、大量のデータからgpuベースの学習を駆使し、人間のようなパフォーマンスに近づいている。そして、聴覚障害者や聴覚障害者のためのインタラクティブなサービスを作る傾向にある。今後何年にもわたって大きく成長すると予想される人口。本稿では,手話の視覚的理解を範囲として,人間の行動認識文献をレビューすることを目的とする。分析された手法は主に、悪用された様々なユニモーダル入力、それらの相対的マルチモーダル結合、パイプラインステップに従って構成される。各セクションでは、関連するデータセットの詳細と比較を行い、次に手話関連サービスの作成に適した、まだオープンなコントリビューションパスを区別します。表情と継続的な署名を扱うアプローチと商用ソリューションには、特に注意が払われるだろう。

関連論文リスト

Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
A Survey on Deep Multi-modal Learning for Body Language Recognition and Generation [5.8522989442606566]
ボディランゲージ(Body language, BL)とは、身体の動き、ジェスチャー、表情、姿勢によって表現される非言語コミュニケーションのこと。深層マルチモーダル学習技術は,これらのBLの多様な側面を理解し解析する上で有望であることを示す。いくつかの共通BLは、手話(SL)、キュードスピーチ(CS)、コスペーチ(CoS)、トーキングヘッド(TH)とみなされる。
論文参考訳（メタデータ） (2023-08-17T08:15:51Z)
Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文参考訳（メタデータ） (2023-06-28T02:33:06Z)
Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文参考訳（メタデータ） (2023-03-27T08:59:55Z)
Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文参考訳（メタデータ） (2022-05-21T16:52:57Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
Human Action Recognition from Various Data Modalities: A Review [37.07491839026713]
人間の行動認識(HAR)は、人間の行動を理解し、各行動にラベルを割り当てることを目指しています。 HARには幅広い用途があり、コンピュータビジョンの分野で注目を集めています。本稿では,入力データモダリティ型に基づくHARの深層学習手法の最近の進歩について考察する。
論文参考訳（メタデータ） (2020-12-22T07:37:43Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。