論文の概要: Visual Methods for Sign Language Recognition: A Modality-Based Review
- arxiv url: http://arxiv.org/abs/2009.10370v1
- Date: Tue, 22 Sep 2020 07:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 21:59:44.303706
- Title: Visual Methods for Sign Language Recognition: A Modality-Based Review
- Title(参考訳): 手話認識のための視覚的手法:モダリティに基づくレビュー
- Authors: Bassem Seddik and Najoua Essoukri Ben Amara
- Abstract要約: 連続したマルチモーダルストリームからの手話による視覚認識は、依然として最も困難な分野の1つである。
人間の行動認識の最近の進歩は、大量のデータからのGPUベースの学習の上昇を活用している。
そして、聴覚障害者や聴覚障害者のためのインタラクティブなサービスを作る傾向にある。
- 参考スコア(独自算出の注目度): 1.332560004325655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language visual recognition from continuous multi-modal streams is still
one of the most challenging fields.
Recent advances in human actions recognition are exploiting the ascension of
GPU-based learning from massive data, and are getting closer to human-like
performances.
They are then prone to creating interactive services for the deaf and
hearing-impaired communities.
A population that is expected to grow considerably in the years to come.
This paper aims at reviewing the human actions recognition literature with
the sign-language visual understanding as a scope.
The methods analyzed will be mainly organized according to the different
types of unimodal inputs exploited, their relative multi-modal combinations and
pipeline steps.
In each section, we will detail and compare the related datasets, approaches
then distinguish the still open contribution paths suitable for the creation of
sign language related services.
Special attention will be paid to the approaches and commercial solutions
handling facial expressions and continuous signing.
- Abstract(参考訳): 連続するマルチモーダルストリームからの手話の視覚認識は、依然として最も難しい分野の1つである。
人間の行動認識の最近の進歩は、大量のデータからgpuベースの学習を駆使し、人間のようなパフォーマンスに近づいている。
そして、聴覚障害者や聴覚障害者のためのインタラクティブなサービスを作る傾向にある。
今後何年にもわたって大きく成長すると予想される人口。
本稿では,手話の視覚的理解を範囲として,人間の行動認識文献をレビューすることを目的とする。
分析された手法は主に、悪用された様々なユニモーダル入力、それらの相対的マルチモーダル結合、パイプラインステップに従って構成される。
各セクションでは、関連するデータセットの詳細と比較を行い、次に手話関連サービスの作成に適した、まだオープンなコントリビューションパスを区別します。
表情と継続的な署名を扱うアプローチと商用ソリューションには、特に注意が払われるだろう。
関連論文リスト
- Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - A Survey on Deep Multi-modal Learning for Body Language Recognition and
Generation [5.8522989442606566]
ボディランゲージ(Body language, BL)とは、身体の動き、ジェスチャー、表情、姿勢によって表現される非言語コミュニケーションのこと。
深層マルチモーダル学習技術は,これらのBLの多様な側面を理解し解析する上で有望であることを示す。
いくつかの共通BLは、手話(SL)、キュードスピーチ(CS)、コスペーチ(CoS)、トーキングヘッド(TH)とみなされる。
論文 参考訳(メタデータ) (2023-08-17T08:15:51Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Human Action Recognition from Various Data Modalities: A Review [37.07491839026713]
人間の行動認識(HAR)は、人間の行動を理解し、各行動にラベルを割り当てることを目指しています。
HARには幅広い用途があり、コンピュータビジョンの分野で注目を集めています。
本稿では,入力データモダリティ型に基づくHARの深層学習手法の最近の進歩について考察する。
論文 参考訳(メタデータ) (2020-12-22T07:37:43Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。