論文の概要: Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries
- arxiv url: http://arxiv.org/abs/2301.03769v1
- Date: Tue, 10 Jan 2023 03:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:44:28.793752
- Title: Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries
- Title(参考訳): 既に存在するものから学ぶ:オンライン辞書を用いた手話認識
- Authors: Maty\'a\v{s} Boh\'a\v{c}ek and Marek Hr\'uz
- Abstract要約: UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Today's sign language recognition models require large training corpora of
laboratory-like videos, whose collection involves an extensive workforce and
financial resources. As a result, only a handful of such systems are publicly
available, not to mention their limited localization capabilities for
less-populated sign languages. Utilizing online text-to-video dictionaries,
which inherently hold annotated data of various attributes and sign languages,
and training models in a few-shot fashion hence poses a promising path for the
democratization of this technology. In this work, we collect and open-source
the UWB-SL-Wild few-shot dataset, the first of its kind training resource
consisting of dictionary-scraped videos. This dataset represents the actual
distribution and characteristics of available online sign language data. We
select glosses that directly overlap with the already existing datasets
WLASL100 and ASLLVD and share their class mappings to allow for transfer
learning experiments. Apart from providing baseline results on a pose-based
architecture, we introduce a novel approach to training sign language
recognition models in a few-shot scenario, resulting in state-of-the-art
results on ASLLVD-Skeleton and ASLLVD-Skeleton-20 datasets with top-1 accuracy
of $30.97~\%$ and $95.45~\%$, respectively.
- Abstract(参考訳): 今日の手話認識モデルは、膨大な労働力と資金を必要とする実験室のようなビデオのトレーニングコーパスを必要とする。
結果として、人口の少ない手話言語に対する限定的なローカライゼーション能力は言うまでもなく、そのようなシステムはほとんど公開されていない。
様々な属性や手話の注釈付きデータを本質的に保持するオンラインのテキスト・ビデオ辞書を利用し、数ショットでモデルを訓練することで、この技術の民主化に有望な道をたどる。
そこで本研究では,uwb-sl-wild small-shotデータセットの収集とオープンソース化を行った。
このデータセットは、利用可能なオンライン手話データの実際の分布と特性を表す。
我々は、既存のデータセットWLASL100とASLLVDと直接重複するグルースを選択し、クラスマッピングを共有して、転送学習実験を可能にします。
ポーズベースのアーキテクチャでの基礎的な結果を提供するのとは別に、手話認識モデルのトレーニングを数回のシナリオで行う新しいアプローチを導入し、asllvd-skeletonとasllvd-skeleton-20データセットに最新結果を与え、それぞれ30.97~$$と9.5.45~$%というtop-1精度を付けた。
関連論文リスト
- Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets [2.512406961007489]
時間グラフ畳み込みに基づく手話認識手法を用いて5つの教師あり移動学習手法を評価する。
特殊な教師付き転写学習法では,ファインタニングに基づく転写学習の改善が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-21T16:36:40Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Towards the extraction of robust sign embeddings for low resource sign
language recognition [7.969704867355098]
キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。
さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
論文 参考訳(メタデータ) (2023-06-30T11:21:40Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - OpenHands: Making Sign Language Recognition Accessible with Pose-based
Pretrained Models across Languages [2.625144209319538]
OpenHandsは、低リソース言語のためのNLPコミュニティから4つの重要なアイデアを取り入れ、それらを単語レベルの認識のための手話言語に適用するライブラリである。
まず,事前学習モデルから抽出したポーズをデータの標準モダリティとして用いて,トレーニング時間を短縮し,効率的な推論を可能にする。
第2に、すべての6言語で4つのポーズベースの独立した手話認識モデルのチェックポイントをトレーニングし、リリースします。
第3に,ラベル付きデータの欠如に対処するため,ラベル付きデータに基づく自己教師付き事前学習を提案する。
論文 参考訳(メタデータ) (2021-10-12T10:33:02Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。