論文の概要: Spatio-temporal transformer to support automatic sign language translation
- arxiv url: http://arxiv.org/abs/2502.02587v1
- Date: Tue, 04 Feb 2025 18:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:04.467638
- Title: Spatio-temporal transformer to support automatic sign language translation
- Title(参考訳): 自動手話翻訳を支援する時空間変換器
- Authors: Christian Ruiz, Fabio Martinez,
- Abstract要約: 本稿では,時間的動きのジェスチャーを符号化し,局所的・長距離的空間情報を保存するトランスフォーマーアーキテクチャを提案する。
提案手法はコロンビア手話翻訳データセットで検証された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sign Language Translation (SLT) systems support hearing-impaired people communication by finding equivalences between signed and spoken languages. This task is however challenging due to multiple sign variations, complexity in language and inherent richness of expressions. Computational approaches have evidenced capabilities to support SLT. Nonetheless, these approaches remain limited to cover gestures variability and support long sequence translations. This paper introduces a Transformer-based architecture that encodes spatio-temporal motion gestures, preserving both local and long-range spatial information through the use of multiple convolutional and attention mechanisms. The proposed approach was validated on the Colombian Sign Language Translation Dataset (CoL-SLTD) outperforming baseline approaches, and achieving a BLEU4 of 46.84%. Additionally, the proposed approach was validated on the RWTH-PHOENIX-Weather-2014T (PHOENIX14T), achieving a BLEU4 score of 30.77%, demonstrating its robustness and effectiveness in handling real-world variations
- Abstract(参考訳): サイン言語翻訳(SLT)システムは、署名された言語と話し言葉の等価性を見出すことにより、聴覚障害者のコミュニケーションを支援する。
しかし、このタスクは、複数の記号のバリエーション、言語の複雑さ、表現の固有の豊かさのために困難である。
計算的アプローチは、SLTをサポートする能力を証明している。
それでも、これらのアプローチはジェスチャーの可変性をカバーし、長いシーケンス翻訳をサポートするために限られている。
本稿では,複数の畳み込み機構とアテンション機構を用いて局所的・長期的空間情報を保存し,時空間動作を符号化するトランスフォーマーアーキテクチャを提案する。
提案されたアプローチは、コロンビア手話翻訳データセット(CoL-SLTD)のベースラインアプローチよりも優れており、BLEU4は46.84%である。
さらに、提案手法はRWTH-PHOENIX-Weather-2014T (PHOENIX14T) で検証され、BLEU4スコアは30.77%に達し、実世界の変動を扱う際の堅牢性と有効性を示した。
関連論文リスト
- Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Efficient Speech Translation with Dynamic Latent Perceivers [0.0]
トランスフォーマーは音声翻訳の主要なアーキテクチャであり、翻訳品質を大幅に向上させた。
本稿では、Perceiverエンコーダを用いて、音声入力を固定長の潜在表現にマッピングすることで、複雑さを軽減することを提案する。
また、動的遅延アクセス(DLA)により、計算オーバーヘッドを伴わずにより大きな潜在空間をアンロックする、Perceiversのトレーニング方法も導入する。
論文 参考訳(メタデータ) (2022-10-28T16:52:48Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Multi-channel Transformers for Multi-articulatory Sign Language
Translation [59.38247587308604]
本稿では,多調な手話翻訳課題に取り組み,新しいマルチチャネルトランスフォーマアーキテクチャを提案する。
提案アーキテクチャにより、異なる手話調節間の文脈内関係をトランスフォーマネットワーク内でモデル化することができる。
論文 参考訳(メタデータ) (2020-09-01T09:10:55Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。