論文の概要: Universal Gloss-level Representation for Gloss-free Sign Language Translation and Production
- arxiv url: http://arxiv.org/abs/2407.02854v1
- Date: Wed, 3 Jul 2024 07:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 15:25:09.600623
- Title: Universal Gloss-level Representation for Gloss-free Sign Language Translation and Production
- Title(参考訳): グロスフリー手話翻訳・生成のためのユニバーサルグロスレベル表現
- Authors: Eui Jun Hwang, Sukmin Cho, Huije Lee, Youngwoo Yoon, Jong C. Park,
- Abstract要約: Universal Gloss-level Representation (UniGloR)は手話翻訳と手話生成のための統一的で自己指導型のソリューションである。
本結果は,UniGloRの翻訳および生産における有効性を示すものである。
本研究は, 自己指導型学習を統一的に実現し, 革新的かつ実践的な応用の道を開くことを示唆する。
- 参考スコア(独自算出の注目度): 9.065171626657818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language, essential for the deaf and hard-of-hearing, presents unique challenges in translation and production due to its multimodal nature and the inherent ambiguity in mapping sign language motion to spoken language words. Previous methods often rely on gloss annotations, requiring time-intensive labor and specialized expertise in sign language. Gloss-free methods have emerged to address these limitations, but they often depend on external sign language data or dictionaries, failing to completely eliminate the need for gloss annotations. There is a clear demand for a comprehensive approach that can supplant gloss annotations and be utilized for both Sign Language Translation (SLT) and Sign Language Production (SLP). We introduce Universal Gloss-level Representation (UniGloR), a unified and self-supervised solution for both SLT and SLP, trained on multiple datasets including PHOENIX14T, How2Sign, and NIASL2021. Our results demonstrate UniGloR's effectiveness in the translation and production tasks. We further report an encouraging result for the Sign Language Recognition (SLR) on previously unseen data. Our study suggests that self-supervised learning can be made in a unified manner, paving the way for innovative and practical applications in future research.
- Abstract(参考訳): 手話は、聴覚障害や難聴に欠かせないものであり、多モーダルな性質と手話の動きを話し言葉にマッピングする本来のあいまいさにより、翻訳と生産において固有の課題を呈している。
それまでの手法は、しばしばグロスアノテーションに頼り、手話に時間を要する労働と専門的な専門知識を必要とする。
グロスフリーなメソッドはこれらの制限に対処するために現れたが、しばしば外部の手話データや辞書に依存しており、グロスアノテーションの必要性を完全に排除することができない。
グロスアノテーションを置き換えて手話翻訳(SLT)と手話生成(SLP)の両方に活用できる包括的アプローチへの明確な要求がある。
我々は、PHOENIX14T、How2Sign、NIASL2021などの複数のデータセットでトレーニングされた、SLTとSLPの統一かつ自己教師型ソリューションであるUniGloR(UniGloR)を紹介する。
本結果は,UniGloRの翻訳および生産における有効性を示すものである。
さらに、未確認データに対して、手話認識(SLR)を奨励する結果を報告する。
本研究は、自己指導型学習を統一的に実現し、今後の研究における革新的で実践的な応用の道を開くことを示唆している。
関連論文リスト
- An Efficient Sign Language Translation Using Spatial Configuration and Motion Dynamics with LLMs [7.630967411418269]
グロスフリー手話翻訳(英: Gloss-free Sign Language Translation, SLT)は、手話の動画を直接言語文に変換する言語である。
本稿では手話に固有の空間的構成や動きのダイナミクスを捉えることの重要性を強調する。
本稿では,空間と運動に基づく手話翻訳(SpaMo)について紹介する。
論文 参考訳(メタデータ) (2024-08-20T07:10:40Z) - C${^2}$RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval [37.12863427950066]
グロースフリーなSLRLのための革新的な事前学習パラダイムC$2$RLを導入する。
C$2$RLはBLEU-4のスコアをP14Tで+5.3、CSLで+10.6、OpenASLで+6.2、How2Signで+1.3改善する。
また、P14Tでは+8.3、CSLでは+14.4、How2Signでは+5.9でR@1スコアが上昇した。
論文 参考訳(メタデータ) (2024-08-19T12:42:10Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-14T14:07:55Z) - Gloss-Free End-to-End Sign Language Translation [59.28829048788345]
我々はGloFE(Gloss-Free End-to-end手話翻訳フレームワーク)を設計する。
本手法は,信号の共通意味と対応する音声翻訳を利用して,光沢のない環境下でのSLTの性能を向上させる。
OpenASLやHow2Signなど,大規模データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-05-22T09:57:43Z) - Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。
グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。
提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - Data Augmentation for Sign Language Gloss Translation [115.13684506803529]
手話翻訳(SLT)は、しばしばビデオ-グロス認識とグロス-テキスト翻訳に分解される。
ここでは低リソースのニューラルネットワーク翻訳(NMT)問題として扱うグロス・トゥ・テキスト翻訳に焦点を当てる。
そこで得られた合成データの事前学習により、アメリカ手話(ASL)から英語、ドイツ語手話(DGS)からドイツ語への翻訳を、それぞれ3.14および2.20BLEUまで改善した。
論文 参考訳(メタデータ) (2021-05-16T16:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。