論文の概要: Deep Understanding of Sign Language for Sign to Subtitle Alignment
- arxiv url: http://arxiv.org/abs/2503.03287v1
- Date: Wed, 05 Mar 2025 09:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:09.701611
- Title: Deep Understanding of Sign Language for Sign to Subtitle Alignment
- Title(参考訳): 字幕アライメントに署名するための手話の深い理解
- Authors: Youngjoon Jang, Jeongsoo Choi, Junseok Ahn, Joon Son Chung,
- Abstract要約: 入力字幕を前処理するために、英国手話の文法規則を利用する。
信号の時間的位置を予測するためのモデルを最適化するために、選択的アライメント損失を設計する。
音声対応ラベルよりも高精度な、洗練された擬似ラベルによる自己学習を行う。
- 参考スコア(独自算出の注目度): 13.96216152723074
- License:
- Abstract: The objective of this work is to align asynchronous subtitles in sign language videos with limited labelled data. To achieve this goal, we propose a novel framework with the following contributions: (1) we leverage fundamental grammatical rules of British Sign Language (BSL) to pre-process the input subtitles, (2) we design a selective alignment loss to optimise the model for predicting the temporal location of signs only when the queried sign actually occurs in a scene, and (3) we conduct self-training with refined pseudo-labels which are more accurate than the heuristic audio-aligned labels. From this, our model not only better understands the correlation between the text and the signs, but also holds potential for application in the translation of sign languages, particularly in scenarios where manual labelling of large-scale sign data is impractical or challenging. Extensive experimental results demonstrate that our approach achieves state-of-the-art results, surpassing previous baselines by substantial margins in terms of both frame-level accuracy and F1-score. This highlights the effectiveness and practicality of our framework in advancing the field of sign language video alignment and translation.
- Abstract(参考訳): 本研究の目的は,手話ビデオ中の非同期字幕を限定ラベル付きデータでアライメントすることである。
この目的を達成するために,(1)英国手話(BSL)の基本文法規則を利用して入力字幕を前処理し,(2)クエリされた記号が実際にシーンで実際に発生する場合にのみ,記号の時間的位置を予測するためのモデルを最適化するために選択的なアラインメント損失を設計し,(3)ヒューリスティックな音声整列ラベルよりも精度の高い洗練された擬似ラベルを用いて自己学習を行う,という新しい枠組みを提案する。
このことから,本モデルは,テキストと記号の相関関係をよりよく理解するだけでなく,手話の翻訳,特に大規模手話データの手動ラベリングが非現実的あるいは困難であるシナリオにも応用できる可能性が示唆された。
その結果,本手法は,フレームレベルの精度とF1スコアの両面で,従来のベースラインをかなり上回り,最先端の成果が得られることが示された。
このことは手話ビデオアライメントと翻訳の分野を前進させる上で,我々のフレームワークの有効性と実用性を強調している。
関連論文リスト
- Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。
署名ビデオと追加のコンテキストキューを組み込む。
文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-01-16T18:59:03Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - Gloss Alignment Using Word Embeddings [40.100782464872076]
大規模音声言語モデルを用いて,スポッティングを対応する字幕と整列する手法を提案する。
我々は,この手法がacfmdgsおよびacfbobslデータセットに与える影響を定量的に示す。
論文 参考訳(メタデータ) (2023-08-08T13:26:53Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - On the Importance of Signer Overlap for Sign Language Detection [65.26091369630547]
我々は,手話検出のための現在のベンチマークデータセットは,一般化が不十分な過度に肯定的な結果であると主張している。
我々は、現在の符号検出ベンチマークデータセットに対するシグナ重なりの影響を詳細に分析することでこれを定量化する。
我々は、重複のない新しいデータセット分割を提案し、より現実的なパフォーマンス評価を可能にします。
論文 参考訳(メタデータ) (2023-03-19T22:15:05Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。