論文の概要: A multitask transformer to sign language translation using motion gesture primitives
- arxiv url: http://arxiv.org/abs/2503.19668v1
- Date: Tue, 25 Mar 2025 13:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:09.988140
- Title: A multitask transformer to sign language translation using motion gesture primitives
- Title(参考訳): モーションジェスチャプリミティブを用いた言語翻訳のためのマルチタスク変換器
- Authors: Fredy Alejandro Mendoza López, Jefferson Rodriguez, Fabio Martínez,
- Abstract要約: この研究は、より適切な翻訳を実現するための光沢学習表現を含むマルチタスクトランスフォーマーアーキテクチャを導入している。
提案手法は,CoL-SLTDデータセットを用いて評価した最先端技術よりも優れ,分割1で72,64%,分割2で14,64%のBLEU-4を実現する。
- 参考スコア(独自算出の注目度): 0.6249768559720122
- License:
- Abstract: The absence of effective communication the deaf population represents the main social gap in this community. Furthermore, the sign language, main deaf communication tool, is unlettered, i.e., there is no formal written representation. In consequence, main challenge today is the automatic translation among spatiotemporal sign representation and natural text language. Recent approaches are based on encoder-decoder architectures, where the most relevant strategies integrate attention modules to enhance non-linear correspondences, besides, many of these approximations require complex training and architectural schemes to achieve reasonable predictions, because of the absence of intermediate text projections. However, they are still limited by the redundant background information of the video sequences. This work introduces a multitask transformer architecture that includes a gloss learning representation to achieve a more suitable translation. The proposed approach also includes a dense motion representation that enhances gestures and includes kinematic information, a key component in sign language. From this representation it is possible to avoid background information and exploit the geometry of the signs, in addition, it includes spatiotemporal representations that facilitate the alignment between gestures and glosses as an intermediate textual representation. The proposed approach outperforms the state-of-the-art evaluated on the CoL-SLTD dataset, achieving a BLEU-4 of 72,64% in split 1, and a BLEU-4 of 14,64% in split 2. Additionally, the strategy was validated on the RWTH-PHOENIX-Weather 2014 T dataset, achieving a competitive BLEU-4 of 11,58%.
- Abstract(参考訳): 聴覚障害者の効果的なコミュニケーションが欠如していることは、このコミュニティの主要な社会的ギャップを表している。
さらに、手話、主難聴コミュニケーションツールは、文字なし、すなわち、正式な書面表現は存在しない。
結果として、今日の主な課題は、時空間記号表現と自然言語の自動翻訳である。
最近のアプローチはエンコーダ・デコーダアーキテクチャに基づいており、最も関連性の高い戦略は注意モジュールを統合して非線形対応を強化することである。
しかし、ビデオシーケンスの冗長な背景情報によって制限されている。
この研究は、より適切な翻訳を実現するための光沢学習表現を含むマルチタスクトランスフォーマーアーキテクチャを導入している。
提案手法には、ジェスチャーを強化し、手話におけるキーコンポーネントである運動情報を含む、濃密な動き表現も含まれている。
この表現から、背景情報を避け、記号の幾何学を利用することができ、また、中間テキスト表現としてのジェスチャーとグルース間のアライメントを容易にする時空間表現も含む。
提案手法は,CoL-SLTDデータセットを用いて評価した最先端技術よりも優れ,分割1で72,64%,分割2で14,64%のBLEU-4を実現する。
さらに、この戦略はRWTH-PHOENIX-Weather 2014 Tデータセットで検証され、BLEU-4の競争力は11,58%に達した。
関連論文リスト
- Spatio-temporal transformer to support automatic sign language translation [0.0]
本稿では,時間的動きのジェスチャーを符号化し,局所的・長距離的空間情報を保存するトランスフォーマーアーキテクチャを提案する。
提案手法はコロンビア手話翻訳データセットで検証された。
論文 参考訳(メタデータ) (2025-02-04T18:59:19Z) - Language-Assisted Human Part Motion Learning for Skeleton-Based Temporal Action Segmentation [11.759374280422113]
骨格に基づくテンポラルアクションは、可変長の骨格配列の高密度な作用分類を含む。
現在のアプローチでは、グラフベースのネットワークを使用して、フレーム単位の全体レベルの動作表現を抽出している。
本稿では,LPL(Language-assisted Human Part Motion Representation)という手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T20:42:51Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。