論文の概要: Scaling up sign spotting through sign language dictionaries
- arxiv url: http://arxiv.org/abs/2205.04152v1
- Date: Mon, 9 May 2022 10:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 16:24:08.689325
- Title: Scaling up sign spotting through sign language dictionaries
- Title(参考訳): 手話辞書による手話のスポッティングのスケールアップ
- Authors: G\"ul Varol, Liliane Momeni, Samuel Albanie, Triantafyllos Afouras,
Andrew Zisserman
- Abstract要約: この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
- 参考スコア(独自算出の注目度): 99.50956498009094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The focus of this work is $\textit{sign spotting}$ - given a video of an
isolated sign, our task is to identify $\textit{whether}$ and $\textit{where}$
it has been signed in a continuous, co-articulated sign language video. To
achieve this sign spotting task, we train a model using multiple types of
available supervision by: (1) $\textit{watching}$ existing footage which is
sparsely labelled using mouthing cues; (2) $\textit{reading}$ associated
subtitles (readily available translations of the signed content) which provide
additional $\textit{weak-supervision}$; (3) $\textit{looking up}$ words (for
which no co-articulated labelled examples are available) in visual sign
language dictionaries to enable novel sign spotting. These three tasks are
integrated into a unified learning framework using the principles of Noise
Contrastive Estimation and Multiple Instance Learning. We validate the
effectiveness of our approach on low-shot sign spotting benchmarks. In
addition, we contribute a machine-readable British Sign Language (BSL)
dictionary dataset of isolated signs, BSLDict, to facilitate study of this
task. The dataset, models and code are available at our project page.
- Abstract(参考訳): この作業の焦点は、$\textit{sign spotting}$ - 孤立したサインのビデオの場合、 $\textit{w whether}$ と $\textit{where}$ を連続的かつ協調的な手話ビデオで署名することである。
To achieve this sign spotting task, we train a model using multiple types of available supervision by: (1) $\textit{watching}$ existing footage which is sparsely labelled using mouthing cues; (2) $\textit{reading}$ associated subtitles (readily available translations of the signed content) which provide additional $\textit{weak-supervision}$; (3) $\textit{looking up}$ words (for which no co-articulated labelled examples are available) in visual sign language dictionaries to enable novel sign spotting.
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
提案手法の有効性を低ショット符号スポッティングベンチマークで検証する。
また,本課題の研究を容易にするために,分離記号bsldictを用いた機械可読ブリティッシュ・サイン言語(bsl)辞書データセットを提案する。
データセット、モデル、コードはプロジェクトのページで利用可能です。
関連論文リスト
- A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Gloss Alignment Using Word Embeddings [40.100782464872076]
大規模音声言語モデルを用いて,スポッティングを対応する字幕と整列する手法を提案する。
我々は,この手法がacfmdgsおよびacfbobslデータセットに与える影響を定量的に示す。
論文 参考訳(メタデータ) (2023-08-08T13:26:53Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。
入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文 参考訳(メタデータ) (2021-03-30T16:39:53Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。