論文の概要: Gloss Alignment Using Word Embeddings
- arxiv url: http://arxiv.org/abs/2308.04248v1
- Date: Tue, 8 Aug 2023 13:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:45:52.380304
- Title: Gloss Alignment Using Word Embeddings
- Title(参考訳): 単語埋め込みを用いた光沢アライメント
- Authors: Harry Walsh, Ozge Mercanoglu Sincan, Ben Saunders, Richard Bowden
- Abstract要約: 大規模音声言語モデルを用いて,スポッティングを対応する字幕と整列する手法を提案する。
我々は,この手法がacfmdgsおよびacfbobslデータセットに与える影響を定量的に示す。
- 参考スコア(独自算出の注目度): 40.100782464872076
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Capturing and annotating Sign language datasets is a time consuming and
costly process. Current datasets are orders of magnitude too small to
successfully train unconstrained \acf{slt} models. As a result, research has
turned to TV broadcast content as a source of large-scale training data,
consisting of both the sign language interpreter and the associated audio
subtitle. However, lack of sign language annotation limits the usability of
this data and has led to the development of automatic annotation techniques
such as sign spotting. These spottings are aligned to the video rather than the
subtitle, which often results in a misalignment between the subtitle and
spotted signs. In this paper we propose a method for aligning spottings with
their corresponding subtitles using large spoken language models. Using a
single modality means our method is computationally inexpensive and can be
utilized in conjunction with existing alignment techniques. We quantitatively
demonstrate the effectiveness of our method on the \acf{mdgs} and \acf{bobsl}
datasets, recovering up to a 33.22 BLEU-1 score in word alignment.
- Abstract(参考訳): 署名言語データセットのキャプチャとアノテーションは、時間とコストのかかるプロセスである。
現在のデータセットは、制約のない \acf{slt}モデルをうまくトレーニングするには、桁違いに小さすぎる。
その結果、研究は、手話インタプリタと関連するオーディオサブタイトルの両方からなる大規模トレーニングデータのソースとして、テレビ放送コンテンツに転換した。
しかし、手話アノテーションの欠如は、このデータのユーザビリティを制限し、手話スポッティングのような自動アノテーション技術の開発につながった。
これらのスポッティングは、字幕ではなくビデオと一致しており、しばしば字幕と斑点の記号のミスアライメントをもたらす。
本論文では,大規模な音声言語モデルを用いて,スポッティングを対応する字幕に合わせる手法を提案する。
単一のモダリティを用いることで,計算コストが低く,既存のアライメント手法と組み合わせて利用することができる。
本稿では, 単語アライメントにおける<acf{mdgs} と \acf{bobsl} データセットの有効性を定量的に検証し, 単語アライメントにおいて最大33.22 BLEU-1 スコアを回復する。
関連論文リスト
- Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
論文 参考訳(メタデータ) (2022-05-09T10:00:03Z) - Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文 参考訳(メタデータ) (2021-05-06T17:59:36Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。