論文の概要: Weakly-supervised Fingerspelling Recognition in British Sign Language
Videos
- arxiv url: http://arxiv.org/abs/2211.08954v1
- Date: Wed, 16 Nov 2022 15:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:39:09.499470
- Title: Weakly-supervised Fingerspelling Recognition in British Sign Language
Videos
- Title(参考訳): イギリス手話ビデオにおける弱教師付指節認識
- Authors: K R Prajwal, Hannah Bull, Liliane Momeni, Samuel Albanie, G\"ul Varol,
Andrew Zisserman
- Abstract要約: 従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない
従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。
本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 85.61513254261523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to detect and recognize sequences of letters signed
using fingerspelling in British Sign Language (BSL). Previous fingerspelling
recognition methods have not focused on BSL, which has a very different signing
alphabet (e.g., two-handed instead of one-handed) to American Sign Language
(ASL). They also use manual annotations for training. In contrast to previous
methods, our method only uses weak annotations from subtitles for training. We
localize potential instances of fingerspelling using a simple feature
similarity method, then automatically annotate these instances by querying
subtitle words and searching for corresponding mouthing cues from the signer.
We propose a Transformer architecture adapted to this task, with a
multiple-hypothesis CTC loss function to learn from alternative annotation
possibilities. We employ a multi-stage training approach, where we make use of
an initial version of our trained model to extend and enhance our training data
before re-training again to achieve better performance. Through extensive
evaluations, we verify our method for automatic annotation and our model
architecture. Moreover, we provide a human expert annotated test set of 5K
video clips for evaluating BSL fingerspelling recognition methods to support
sign language research.
- Abstract(参考訳): 本研究の目的は,英国手話 (British Sign Language, BSL) で指で綴じられた文字のシーケンスを検出し,認識することである。
それまでの指先認識法は、アメリカ手話(ASL)と全く異なる署名アルファベット(例えば、片手ではなく両手で)を持つBSLに焦点を合わせていなかった。
トレーニングには手動のアノテーションも使用する。
従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。
簡単な特徴類似性を用いて,手指操作の潜在的インスタンスをローカライズし,サブタイトルの単語をクエリし,シグナから対応するヒントを検索することで,これらのインスタンスを自動アノテーション化する。
本稿では,このタスクに適応したトランスフォーマティブアーキテクチャを提案し,代替アノテーションの可能性から学ぶためのマルチハイポテーゼctc損失関数を提案する。
私たちは多段階トレーニングアプローチを採用しており、トレーニングモデルの初期バージョンを使用してトレーニングデータの拡張と拡張を行い、その後再トレーニングしてパフォーマンス向上を実現しています。
広範な評価を通じて,自動アノテーションの手法とモデルアーキテクチャを検証する。
さらに,手話研究を支援するBSL指スペル認識手法を評価するために,人手による5Kビデオクリップの注釈付きテストセットを提供する。
関連論文リスト
- Toward American Sign Language Processing in the Real World: Data, Tasks,
and Methods [15.77894358993113]
インターネットから収集した署名ビデオを用いて,手話の自動処理について検討した。
ChicagoFSWild、ChicagoFSWild+、OpenASLの3つの大規模ASLデータセットを紹介します。
そこで本研究では,指スペル検出と検索という,実世界の指スペルベースアプリケーションを構築するための2つのタスクを提案する。
論文 参考訳(メタデータ) (2023-08-23T20:38:19Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - Fingerspelling Detection in American Sign Language [32.79935314131377]
未熟な手話ビデオで指のスペル検出のタスクを検討します。
これは、現実世界の指先認識システムを構築するための重要なステップである。
そこで本研究では,下流指先認識課題に対する検出の影響を反映したベンチマークと評価指標を提案する。
論文 参考訳(メタデータ) (2021-04-03T02:11:09Z) - Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。
入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文 参考訳(メタデータ) (2021-03-30T16:39:53Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。