Fugu-MT 論文翻訳(概要): Learning from What is Already Out There: Few-shot Sign Language Recognition with Online Dictionaries

論文の概要: Learning from What is Already Out There: Few-shot Sign Language Recognition with Online Dictionaries

arxiv url: http://arxiv.org/abs/2301.03769v1
Date: Tue, 10 Jan 2023 03:21:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-11 16:44:28.793752
Title: Learning from What is Already Out There: Few-shot Sign Language Recognition with Online Dictionaries
Title（参考訳）: 既に存在するものから学ぶ:オンライン辞書を用いた手話認識
Authors: Maty\'a\v{s} Boh\'a\v{c}ek and Marek Hr\'uz
Abstract要約: UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Today's sign language recognition models require large training corpora of laboratory-like videos, whose collection involves an extensive workforce and financial resources. As a result, only a handful of such systems are publicly available, not to mention their limited localization capabilities for less-populated sign languages. Utilizing online text-to-video dictionaries, which inherently hold annotated data of various attributes and sign languages, and training models in a few-shot fashion hence poses a promising path for the democratization of this technology. In this work, we collect and open-source the UWB-SL-Wild few-shot dataset, the first of its kind training resource consisting of dictionary-scraped videos. This dataset represents the actual distribution and characteristics of available online sign language data. We select glosses that directly overlap with the already existing datasets WLASL100 and ASLLVD and share their class mappings to allow for transfer learning experiments. Apart from providing baseline results on a pose-based architecture, we introduce a novel approach to training sign language recognition models in a few-shot scenario, resulting in state-of-the-art results on ASLLVD-Skeleton and ASLLVD-Skeleton-20 datasets with top-1 accuracy of $30.97~\%$ and $95.45~\%$, respectively.
Abstract（参考訳）: 今日の手話認識モデルは、膨大な労働力と資金を必要とする実験室のようなビデオのトレーニングコーパスを必要とする。結果として、人口の少ない手話言語に対する限定的なローカライゼーション能力は言うまでもなく、そのようなシステムはほとんど公開されていない。様々な属性や手話の注釈付きデータを本質的に保持するオンラインのテキスト・ビデオ辞書を利用し、数ショットでモデルを訓練することで、この技術の民主化に有望な道をたどる。そこで本研究では,uwb-sl-wild small-shotデータセットの収集とオープンソース化を行った。このデータセットは、利用可能なオンライン手話データの実際の分布と特性を表す。我々は、既存のデータセットWLASL100とASLLVDと直接重複するグルースを選択し、クラスマッピングを共有して、転送学習実験を可能にします。ポーズベースのアーキテクチャでの基礎的な結果を提供するのとは別に、手話認識モデルのトレーニングを数回のシナリオで行う新しいアプローチを導入し、asllvd-skeletonとasllvd-skeleton-20データセットに最新結果を与え、それぞれ30.97~$$と9.5.45~$%というtop-1精度を付けた。

関連論文リスト

SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。 HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。 SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets [2.512406961007489]
時間グラフ畳み込みに基づく手話認識手法を用いて5つの教師あり移動学習手法を評価する。特殊な教師付き転写学習法では,ファインタニングに基づく転写学習の改善が可能であることを示す。
論文参考訳（メタデータ） (2024-03-21T16:36:40Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
Towards the extraction of robust sign embeddings for low resource sign language recognition [7.969704867355098]
キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
論文参考訳（メタデータ） (2023-06-30T11:21:40Z)
Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文参考訳（メタデータ） (2023-05-23T21:00:42Z)
A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文参考訳（メタデータ） (2022-03-08T18:59:56Z)
OpenHands: Making Sign Language Recognition Accessible with Pose-based Pretrained Models across Languages [2.625144209319538]
OpenHandsは、低リソース言語のためのNLPコミュニティから4つの重要なアイデアを取り入れ、それらを単語レベルの認識のための手話言語に適用するライブラリである。まず,事前学習モデルから抽出したポーズをデータの標準モダリティとして用いて,トレーニング時間を短縮し,効率的な推論を可能にする。第2に、すべての6言語で4つのポーズベースの独立した手話認識モデルのチェックポイントをトレーニングし、リリースします。第3に,ラベル付きデータの欠如に対処するため,ラベル付きデータに基づく自己教師付き事前学習を提案する。
論文参考訳（メタデータ） (2021-10-12T10:33:02Z)
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2021-07-06T15:41:32Z)
Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文参考訳（メタデータ） (2020-03-08T03:05:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。