論文の概要: Aligning Subtitles in Sign Language Videos
- arxiv url: http://arxiv.org/abs/2105.02877v1
- Date: Thu, 6 May 2021 17:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:21:30.864095
- Title: Aligning Subtitles in Sign Language Videos
- Title(参考訳): 手話ビデオにおける字幕の調整
- Authors: Hannah Bull, Triantafyllos Afouras, G\"ul Varol, Samuel Albanie,
Liliane Momeni, Andrew Zisserman
- Abstract要約: 17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
- 参考スコア(独自算出の注目度): 80.20961722170655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to temporally align asynchronous subtitles in sign
language videos. In particular, we focus on sign-language interpreted TV
broadcast data comprising (i) a video of continuous signing, and (ii) subtitles
corresponding to the audio content. Previous work exploiting such
weakly-aligned data only considered finding keyword-sign correspondences,
whereas we aim to localise a complete subtitle text in continuous signing. We
propose a Transformer architecture tailored for this task, which we train on
manually annotated alignments covering over 15K subtitles that span 17.7 hours
of video. We use BERT subtitle embeddings and CNN video representations learned
for sign recognition to encode the two signals, which interact through a series
of attention layers. Our model outputs frame-level predictions, i.e., for each
video frame, whether it belongs to the queried subtitle or not. Through
extensive evaluations, we show substantial improvements over existing alignment
baselines that do not make use of subtitle text embeddings for learning. Our
automatic alignment model opens up possibilities for advancing machine
translation of sign languages via providing continuously synchronized
video-text data.
- Abstract(参考訳): この研究の目的は、手話ビデオの非同期字幕を時間的にアライメントすることである。
特に, (i) 連続署名の映像, (ii) 音声コンテンツに対応する字幕を含む, 手話通訳tv放送データに注目した。
このような弱い整列データを利用した従来の作業は,キーワードサイン対応の検索のみを考慮したものだった。
このタスクに適したTransformerアーキテクチャを提案し、ビデオ17.7時間にわたる15K字幕を手動でアライメントする。
bert字幕埋め込みとcnnビデオ表現を用いて2つの信号の符号化を行い,一連の注意層を介して対話する。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
広範な評価を通じて,字幕テキスト埋め込みを学習に使用しない既存のアライメントベースラインよりも大幅に改善することを示す。
当社の自動アライメントモデルは,連続的同期ビデオテキストデータを提供することにより,手話の機械翻訳を前進させる可能性を開く。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Gloss Alignment Using Word Embeddings [40.100782464872076]
大規模音声言語モデルを用いて,スポッティングを対応する字幕と整列する手法を提案する。
我々は,この手法がacfmdgsおよびacfbobslデータセットに与える影響を定量的に示す。
論文 参考訳(メタデータ) (2023-08-08T13:26:53Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Direct Speech Translation for Automatic Subtitling [17.095483965591267]
対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。
7つの言語対の実験により、我々のアプローチは、同じデータ条件下でカスケードシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-27T06:47:42Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - Between Flexibility and Consistency: Joint Generation of Captions and
Subtitles [13.58711830450618]
音声翻訳(ST)は、最近、中間ソース言語の転写とタイミングを必要とせず、字幕生成への関心が高まっている。
本研究では、構造や語彙内容の観点から一貫した字幕字幕を生成するSTモデルに焦点を当てる。
本研究は, 共同復号化によって生成した字幕と字幕間の性能と一貫性が向上し, 言語固有のニーズや規範に適合した字幕を生成するのに十分な柔軟性が得られていることを示す。
論文 参考訳(メタデータ) (2021-07-13T17:06:04Z) - Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。
入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文 参考訳(メタデータ) (2021-03-30T16:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。