論文の概要: Less is more: concatenating videos for Sign Language Translation from a small set of signs
- arxiv url: http://arxiv.org/abs/2409.01506v1
- Date: Tue, 3 Sep 2024 00:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:35:27.489727
- Title: Less is more: concatenating videos for Sign Language Translation from a small set of signs
- Title(参考訳): 以下:手話翻訳の動画を小さな記号からまとめる
- Authors: David Vinicius da Silva, Valter Estevam, David Menotti,
- Abstract要約: 本稿では,手話翻訳モデルの訓練のために,孤立信号を含む短いクリップを連結して手話内容を生成することを提案する。
V-LIBRASILデータセットは4,089個の手話ビデオで構成され,少なくとも3人が解釈し,数十万の文を生成する。
BLEU-4 と METEOR はそれぞれ 9.2% と 26.2% の有意なスコアを得た。
- 参考スコア(独自算出の注目度): 2.522137108227868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The limited amount of labeled data for training the Brazilian Sign Language (Libras) to Portuguese Translation models is a challenging problem due to video collection and annotation costs. This paper proposes generating sign language content by concatenating short clips containing isolated signals for training Sign Language Translation models. We employ the V-LIBRASIL dataset, composed of 4,089 sign videos for 1,364 signs, interpreted by at least three persons, to create hundreds of thousands of sentences with their respective Libras translation, and then, to feed the model. More specifically, we propose several experiments varying the vocabulary size and sentence structure, generating datasets with approximately 170K, 300K, and 500K videos. Our results achieve meaningful scores of 9.2% and 26.2% for BLEU-4 and METEOR, respectively. Our technique enables the creation or extension of existing datasets at a much lower cost than the collection and annotation of thousands of sentences providing clear directions for future works.
- Abstract(参考訳): ブラジル手話(リビア語)をポルトガル語翻訳モデルにトレーニングするためのラベル付きデータの制限は、ビデオ収集とアノテーションコストのために難しい問題である。
本稿では,手話翻訳モデルの訓練のために,孤立した信号を含む短いクリップを連結して手話内容を生成することを提案する。
V-LIBRASILデータセットは4,089個の手話ビデオからなり、少なくとも3人が解釈し、各Libras翻訳で数十万の文を作成し、そのモデルを供給している。
具体的には,語彙のサイズや文構造が変化し,約170K,300K,500Kビデオのデータセットを生成する実験をいくつか提案する。
BLEU-4 と METEOR はそれぞれ 9.2% と 26.2% の有意なスコアを得た。
我々の技術は、将来的な作業の明確な方向性を提供する何千もの文の収集やアノテーションよりもはるかに低コストで既存のデータセットの作成や拡張を可能にします。
関連論文リスト
- SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文 参考訳(メタデータ) (2024-07-01T13:17:35Z) - A Hong Kong Sign Language Corpus Collected from Sign-interpreted TV News [35.21381501609772]
TVB-HKSL-Newsは、香港のニュース番組から7ヶ月にわたって収集された新しい手話(HKSL)データセットである。
6,515グルース(SLR用)と2,850漢字または18K漢字(SLT用)の語彙を持つ2人のシグナーの16.07時間のサインビデオで構成されている。
論文 参考訳(メタデータ) (2024-05-02T03:33:17Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
論文 参考訳(メタデータ) (2022-05-09T10:00:03Z) - Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。
入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文 参考訳(メタデータ) (2021-03-30T16:39:53Z) - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models [144.85290716246533]
視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
論文 参考訳(メタデータ) (2021-03-16T04:37:40Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。