論文の概要: ChaLearn LAP Large Scale Signer Independent Isolated Sign Language
Recognition Challenge: Design, Results and Future Research
- arxiv url: http://arxiv.org/abs/2105.05066v1
- Date: Tue, 11 May 2021 14:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 13:55:04.801712
- Title: ChaLearn LAP Large Scale Signer Independent Isolated Sign Language
Recognition Challenge: Design, Results and Future Research
- Title(参考訳): chalearn lap large scale signer independent isolated sign language recognition challenge: design, results and future research
- Authors: Ozge Mercanoglu Sincan, Julio C. S. Jacques Junior, Sergio Escalera,
Hacer Yalim Keles
- Abstract要約: この研究はCVPR 2021で組織されたChaLearn LAP Large Scale Signer Independent Isolated SLR Challengeをまとめたものである。
我々は、チャレンジデザイン、トップ入賞ソリューション、今後の研究への提案について論じる。
優勝チームは96%以上の認識率を達成し、そのアプローチはポーズ/ハンド/フェイス推定、転送学習、外部データ、モダリティの融合/アンサンブル、モデル時系列情報への異なる戦略から恩恵を受けた。
- 参考スコア(独自算出の注目度): 28.949528008976493
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The performances of Sign Language Recognition (SLR) systems have improved
considerably in recent years. However, several open challenges still need to be
solved to allow SLR to be useful in practice. The research in the field is in
its infancy in regards to the robustness of the models to a large diversity of
signs and signers, and to fairness of the models to performers from different
demographics. This work summarises the ChaLearn LAP Large Scale Signer
Independent Isolated SLR Challenge, organised at CVPR 2021 with the goal of
overcoming some of the aforementioned challenges. We analyse and discuss the
challenge design, top winning solutions and suggestions for future research.
The challenge attracted 132 participants in the RGB track and 59 in the
RGB+Depth track, receiving more than 1.5K submissions in total. Participants
were evaluated using a new large-scale multi-modal Turkish Sign Language
(AUTSL) dataset, consisting of 226 sign labels and 36,302 isolated sign video
samples performed by 43 different signers. Winning teams achieved more than 96%
recognition rate, and their approaches benefited from pose/hand/face
estimation, transfer learning, external data, fusion/ensemble of modalities and
different strategies to model spatio-temporal information. However, methods
still fail to distinguish among very similar signs, in particular those sharing
similar hand trajectories.
- Abstract(参考訳): 近年,手話認識(SLR)システムの性能は大幅に向上している。
しかし、SLRが実際に有用になるためには、未解決の課題もいくつか解決する必要がある。
この分野の研究は、モデルの頑健さから多くの標識やシグナーの多様性、異なる人口階層のパフォーマーへのモデルの公平さについて、初期段階にある。
この研究は、前述の課題を克服するためにcvpr 2021で組織されたchalearn lap large scale signer independent isolated slr challengeをまとめている。
我々は,課題設計,トップ勝利ソリューション,今後の研究への提案を分析し,議論する。
RGB+Depthトラックでは132人、RGB+Depthトラックでは59人が参加し、合計で1.5K以上の応募を受けた。
参加者は226のサインラベルと43の異なるシグナーによる36,302の独立した手話ビデオサンプルからなる,新しい大規模マルチモーダル・トルコ手話(AUTSL)データセットを用いて評価した。
勝利したチームは96%以上の認識率を達成し、そのアプローチはポーズ/手/顔の推定、転送学習、外部データ、モダリティの融合/センス、時空間情報をモデル化するための異なる戦略から恩恵を受けた。
しかし、メソッドは依然として非常に類似した兆候、特に類似のハンドトラジェクトリを共有するものとは区別できない。
関連論文リスト
- A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples [18.29910296652917]
MER2024-SEMI(Semi-Supervised Learning Sub-Challenge)に対する提案手法を提案する。
この課題は、感情認識における限られた注釈付きデータの問題に対処する。
提案手法はMER2024-SEMIチャレンジで有効であることが確認され, 平均Fスコア88.25%, リーダーボード6位となった。
論文 参考訳(メタデータ) (2024-08-23T11:33:54Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation
over More Languages and Beyond [89.54151859266202]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文 参考訳(メタデータ) (2023-10-09T08:30:01Z) - Towards the extraction of robust sign embeddings for low resource sign
language recognition [7.969704867355098]
キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。
さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
論文 参考訳(メタデータ) (2023-06-30T11:21:40Z) - MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised
Learning [90.17500229142755]
第1回マルチモーダル感情認識チャレンジ(MER 2023)は、ACMマルチメディアで成功した。
本稿では、この課題の背景にある動機を紹介し、ベンチマークデータセットを説明し、参加者に関する統計情報を提供する。
この高品質なデータセットは、特に中国の研究コミュニティにとって、マルチモーダルな感情認識の新しいベンチマークになり得ると考えています。
論文 参考訳(メタデータ) (2023-04-18T13:23:42Z) - Word level Bangla Sign Language Dataset for Continuous BSL Recognition [0.0]
我々は,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。
モデルの精度は85.64%と報告されている。
論文 参考訳(メタデータ) (2023-02-22T18:55:54Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Word separation in continuous sign language using isolated signs and
post-processing [47.436298331905775]
連続手話認識のための2段階モデルを提案する。
第1段階では、CNN、SVD、LSTMの組み合わせを含む予測モデルが、孤立した標識で訓練される。
第2段階では、モデルの最初の部分から得られたソフトマックス出力に後処理アルゴリズムを適用する。
論文 参考訳(メタデータ) (2022-04-02T18:34:33Z) - AUTSL: A Large Scale Multi-modal Turkish Sign Language Dataset and
Baseline Methods [6.320141734801679]
大規模マルチモーダルなトルコ手話データセット(AUTSL)をベンチマークで提案する。
我々のデータセットは、43の異なるシグナが実行した226のサインと、38,336の孤立したシグナのビデオサンプルで構成されています。
我々は、いくつかのディープラーニングベースのモデルをトレーニングし、ベンチマークを用いて経験的評価を行った。
論文 参考訳(メタデータ) (2020-08-03T15:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。