論文の概要: Watch, read and lookup: learning to spot signs from multiple supervisors
- arxiv url: http://arxiv.org/abs/2010.04002v1
- Date: Thu, 8 Oct 2020 14:12:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:24:31.665257
- Title: Watch, read and lookup: learning to spot signs from multiple supervisors
- Title(参考訳): watch, read, lookup: 複数のスーパーバイザーからのサインを見つけるための学習
- Authors: Liliane Momeni, G\"ul Varol, Samuel Albanie, Triantafyllos Afouras,
Andrew Zisserman
- Abstract要約: 孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
- 参考スコア(独自算出の注目度): 99.50956498009094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The focus of this work is sign spotting - given a video of an isolated sign,
our task is to identify whether and where it has been signed in a continuous,
co-articulated sign language video. To achieve this sign spotting task, we
train a model using multiple types of available supervision by: (1) watching
existing sparsely labelled footage; (2) reading associated subtitles (readily
available translations of the signed content) which provide additional
weak-supervision; (3) looking up words (for which no co-articulated labelled
examples are available) in visual sign language dictionaries to enable novel
sign spotting. These three tasks are integrated into a unified learning
framework using the principles of Noise Contrastive Estimation and Multiple
Instance Learning. We validate the effectiveness of our approach on low-shot
sign spotting benchmarks. In addition, we contribute a machine-readable British
Sign Language (BSL) dictionary dataset of isolated signs, BSLDict, to
facilitate study of this task. The dataset, models and code are available at
our project page.
- Abstract(参考訳): この作業の焦点は、サインスポッティング(Sign spotting)である - 孤立したサインのビデオを考えると、我々のタスクは、署名が連続的かつ協調的な手話ビデオで、どこで署名されたかを特定することです。
このサインスポッティングタスクを実現するために,(1)既存の少ないラベル付き映像を見ること,(2)関連字幕(署名されたコンテンツの可読な翻訳)を読むこと,(3)視覚手話辞書で単語を検索すること(共同字幕付き例は使用できない)により,新しい手話スポッティングを可能にする。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
提案手法の有効性を低ショット符号スポッティングベンチマークで検証する。
また,本課題の研究を容易にするために,分離記号bsldictを用いた機械可読ブリティッシュ・サイン言語(bsl)辞書データセットを提案する。
データセット、モデル、コードはプロジェクトのページで利用可能です。
関連論文リスト
- A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
論文 参考訳(メタデータ) (2022-05-09T10:00:03Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。
入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文 参考訳(メタデータ) (2021-03-30T16:39:53Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。