論文の概要: POSESTITCH-SLT: Linguistically Inspired Pose-Stitching for End-to-End Sign Language Translation
- arxiv url: http://arxiv.org/abs/2511.00270v1
- Date: Fri, 31 Oct 2025 21:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.705749
- Title: POSESTITCH-SLT: Linguistically Inspired Pose-Stitching for End-to-End Sign Language Translation
- Title(参考訳): POSESTITCH-SLT: 言語学的にヒントを得た手話翻訳
- Authors: Abhinav Joshi, Vaibhav Sharma, Sanjeet Singh, Ashutosh Modi,
- Abstract要約: 我々は手話のためのニューラルマシン翻訳のための新しい事前学習手法POSESTITCH-SLTを提案する。
簡単な変換器ベースのエンコーダデコーダアーキテクチャは,テンプレート生成文ペアのトレーニングにおいて,先行技術より優れていることを示す。
- 参考スコア(独自算出の注目度): 21.374625125480133
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language translation remains a challenging task due to the scarcity of large-scale, sentence-aligned datasets. Prior arts have focused on various feature extraction and architectural changes to support neural machine translation for sign languages. We propose POSESTITCH-SLT, a novel pre-training scheme that is inspired by linguistic-templates-based sentence generation technique. With translation comparison on two sign language datasets, How2Sign and iSign, we show that a simple transformer-based encoder-decoder architecture outperforms the prior art when considering template-generated sentence pairs in training. We achieve BLEU-4 score improvements from 1.97 to 4.56 on How2Sign and from 0.55 to 3.43 on iSign, surpassing prior state-of-the-art methods for pose-based gloss-free translation. The results demonstrate the effectiveness of template-driven synthetic supervision in low-resource sign language settings.
- Abstract(参考訳): 大規模で文対応のデータセットが不足しているため、手話翻訳は依然として難しい課題である。
先行技術は、手話のためのニューラルマシン翻訳をサポートする様々な特徴抽出とアーキテクチャの変更に焦点を当ててきた。
本稿では,言語テンプレートに基づく文生成技術にヒントを得た,新しい事前学習手法POSESTITCH-SLTを提案する。
2つの手話データセット、How2SignとiSignの翻訳比較により、簡単なトランスフォーマーベースのエンコーダ・デコーダアーキテクチャは、トレーニングにおいてテンプレート生成文対を考える場合、先行技術より優れていることを示す。
We achieve BLEU-4 score improve to 1.97 to 4.56 on How2Sign, from 0.55 to 3.43 on iSign。
その結果,低リソース手話設定におけるテンプレート駆動型合成指導の有効性が示された。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。