論文の概要: Using Sign Language Production as Data Augmentation to enhance Sign Language Translation
- arxiv url: http://arxiv.org/abs/2506.09643v1
- Date: Wed, 11 Jun 2025 11:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.911024
- Title: Using Sign Language Production as Data Augmentation to enhance Sign Language Translation
- Title(参考訳): 手話生成をデータ拡張として利用して手話翻訳を強化する
- Authors: Harry Walsh, Maksym Ivashechkin, Richard Bowden,
- Abstract要約: 手話データセットは、しばしば話される言語データセットよりも桁違いに小さい。
我々は手話生産の最近の進歩を活用して既存の手話データセットを強化することを提案する。
提案手法は,既存のデータセットを効果的に拡張し,手話翻訳モデルの性能を最大19%向上させることができることを示す。
- 参考スコア(独自算出の注目度): 31.770455887142095
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning models fundamentally rely on large quantities of high-quality data. Collecting the necessary data for these models can be challenging due to cost, scarcity, and privacy restrictions. Signed languages are visual languages used by the deaf community and are considered low-resource languages. Sign language datasets are often orders of magnitude smaller than their spoken language counterparts. Sign Language Production is the task of generating sign language videos from spoken language sentences, while Sign Language Translation is the reverse translation task. Here, we propose leveraging recent advancements in Sign Language Production to augment existing sign language datasets and enhance the performance of Sign Language Translation models. For this, we utilize three techniques: a skeleton-based approach to production, sign stitching, and two photo-realistic generative models, SignGAN and SignSplat. We evaluate the effectiveness of these techniques in enhancing the performance of Sign Language Translation models by generating variation in the signer's appearance and the motion of the skeletal data. Our results demonstrate that the proposed methods can effectively augment existing datasets and enhance the performance of Sign Language Translation models by up to 19%, paving the way for more robust and accurate Sign Language Translation systems, even in resource-constrained environments.
- Abstract(参考訳): 機械学習モデルは基本的に大量の高品質のデータに依存している。
これらのモデルに必要なデータを集めることは、コスト、不足、プライバシの制限のために難しい場合がある。
符号付き言語は聴覚障害者コミュニティで使われている視覚言語であり、低リソース言語と考えられている。
手話データセットは、しばしば話される言語データセットよりも桁違いに小さい。
手話生成は、手話文から手話ビデオを生成するタスクであり、手話翻訳は逆翻訳タスクである。
本稿では,手話生産の最近の進歩を活用し,既存の手話データセットを拡張し,手話翻訳モデルの性能を向上させることを提案する。
そこで本研究では,スケルトンをベースとした製作法,手根縫合法,およびSignGANとSignSplatの2つのフォトリアリスティック生成モデルを利用する。
我々は,手話翻訳モデルの性能向上におけるこれらの手法の有効性を,手話の外観や骨格データの動作の変化によって評価する。
提案手法は,既存のデータセットを効果的に拡張し,手話翻訳モデルの性能を最大19%向上させ,資源制約のある環境においてもより堅牢で正確な手話翻訳システムを実現することを実証した。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,署名者の顔,手,身体のポーズなど,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Modeling Intensification for Sign Language Generation: A Computational
Approach [13.57903290481737]
エンドツーエンドの手話生成モデルは手話の韻律を正確に表現していない。
我々は、データ駆動方式で強化をモデル化することで、生成した手話における韻律を改善することを目指している。
自動メトリクスで評価すると、強化モデリングにおける我々の取り組みがより良い結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-03-18T01:13:21Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。