論文の概要: Automatic dense annotation of large-vocabulary sign language videos
- arxiv url: http://arxiv.org/abs/2208.02802v1
- Date: Thu, 4 Aug 2022 17:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:45:05.980323
- Title: Automatic dense annotation of large-vocabulary sign language videos
- Title(参考訳): 大語彙手話ビデオの自動濃密アノテーション
- Authors: Liliane Momeni, Hannah Bull, K R Prajwal, Samuel Albanie, G\"ul Varol,
Andrew Zisserman
- Abstract要約: 自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
- 参考スコア(独自算出の注目度): 85.61513254261523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, sign language researchers have turned to sign language interpreted
TV broadcasts, comprising (i) a video of continuous signing and (ii) subtitles
corresponding to the audio content, as a readily available and large-scale
source of training data. One key challenge in the usability of such data is the
lack of sign annotations. Previous work exploiting such weakly-aligned data
only found sparse correspondences between keywords in the subtitle and
individual signs. In this work, we propose a simple, scalable framework to
vastly increase the density of automatic annotations. Our contributions are the
following: (1) we significantly improve previous annotation methods by making
use of synonyms and subtitle-signing alignment; (2) we show the value of
pseudo-labelling from a sign recognition model as a way of sign spotting; (3)
we propose a novel approach for increasing our annotations of known and unknown
classes based on in-domain exemplars; (4) on the BOBSL BSL sign language
corpus, we increase the number of confident automatic annotations from 670K to
5M. We make these annotations publicly available to support the sign language
research community.
- Abstract(参考訳): 最近、手話研究者は、手話解釈テレビ放送(英語版)に切り替えた。
(i)連続署名の映像と
(ii)音声コンテンツに対応する字幕は、容易に入手でき、かつ大規模に訓練データのソースとして利用できる。
このようなデータのユーザビリティにおける1つの重要な課題は、サインアノテーションの欠如である。
このような弱い整列データを利用する以前の作業は、字幕内のキーワードと個々の記号の間のスパース対応しか見つからなかった。
本稿では,自動アノテーションの密度を大幅に高めるための,単純でスケーラブルなフレームワークを提案する。
我々は,(1)シノニムとサブタイトルのアライメントを利用して,従来のアノテーション手法を大幅に改善し,(2)サインスポッティングの方法として,符号認識モデルから擬似ラベリングの価値を示し,(3)ドメイン内例に基づく未知のクラスへのアノテーションを増やすための新しいアプローチを提案する。(4)BOBSL BSL手話コーパスでは,自信ある自動アノテーションの数が670Kから5Mに増加した。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
関連論文リスト
- Gloss Alignment Using Word Embeddings [40.100782464872076]
大規模音声言語モデルを用いて,スポッティングを対応する字幕と整列する手法を提案する。
我々は,この手法がacfmdgsおよびacfbobslデータセットに与える影響を定量的に示す。
論文 参考訳(メタデータ) (2023-08-08T13:26:53Z) - Weakly-supervised Fingerspelling Recognition in British Sign Language
Videos [85.61513254261523]
従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない
従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。
本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-16T15:02:36Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。
入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文 参考訳(メタデータ) (2021-03-30T16:39:53Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。