論文の概要: Action Recognition for American Sign Language
- arxiv url: http://arxiv.org/abs/2205.12261v1
- Date: Fri, 20 May 2022 23:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 20:17:35.014770
- Title: Action Recognition for American Sign Language
- Title(参考訳): アメリカ手話における行動認識
- Authors: Nguyen Huu Phong, Bernardete Ribeiro
- Abstract要約: 最初のデータセットは、10のサインのための150の動画と、15のサインのための225の動画の延長です。
我々は、異なる時間的設定の動画に対して、ディープニューラルネットワークとバックグラウンドサブトラクションを組み合わせた転送学習モデルを適用した。
- 参考スコア(独自算出の注目度): 1.5990720051907859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this research, we present our findings to recognize American Sign Language
from series of hand gestures. While most researches in literature focus only on
static handshapes, our work target dynamic hand gestures. Since dynamic signs
dataset are very few, we collect an initial dataset of 150 videos for 10 signs
and an extension of 225 videos for 15 signs. We apply transfer learning models
in combination with deep neural networks and background subtraction for videos
in different temporal settings. Our primarily results show that we can get an
accuracy of $0.86$ and $0.71$ using DenseNet201, LSTM with video sequence of 12
frames accordingly.
- Abstract(参考訳): 本研究では,手の動きの連続からアメリカ手話を認識するための知見を提示する。
文学研究の多くは静的な手形のみに焦点を当てているが、我々の研究はダイナミックな手振りを対象としている。
dynamic signデータセットは非常に少ないので、最初の150ビデオのデータセットを10のサインに、225の動画を15のサインに拡張します。
時間的設定の異なるビデオに対して,ディープニューラルネットワークと背景減算を組み合わせたトランスファー学習モデルを適用する。
主に,DenseNet201,LSTM,12フレームのビデオシーケンスを用いて,0.86$と0.71$の精度が得られることを示す。
関連論文リスト
- SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文 参考訳(メタデータ) (2024-07-01T13:17:35Z) - Self-Supervised Video Transformers for Isolated Sign Language
Recognition [19.72944125318495]
最近導入された4つのトランスフォーマーベースのビデオからの自己教師型学習アプローチと4つの事前学習データレギュレーションについて検討する。
MaskFeatは、ポーズベースおよび教師付きビデオモデルよりもパフォーマンスが優れており、GlossベースのWLASL2000では、トップ1の精度は79.02%である。
論文 参考訳(メタデータ) (2023-09-02T03:00:03Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Learning Video Representations from Large Language Models [31.11998135196614]
我々はLarge Language Models(LLMs)を利用したビデオ言語表現学習の新しいアプローチであるLaViLaを紹介した。
我々は、事前学習したLLMを視覚入力で条件付けするために再利用し、それらを微調整して自動ビデオナレーターを作成する。
私たちの自動生成ナレーションには、長いビデオの密接なカバレッジ、視覚情報とテキストの時間同期の改善、テキストの多様性の向上など、多くの利点があります。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。