論文の概要: C${^2}$RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval
- arxiv url: http://arxiv.org/abs/2408.09949v1
- Date: Mon, 19 Aug 2024 12:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:13:49.803133
- Title: C${^2}$RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval
- Title(参考訳): C${^2}$RL:グロスフリー手話翻訳と検索のための内容と文脈表現学習
- Authors: Zhigang Chen, Benjia Zhou, Yiqing Huang, Jun Wan, Yibo Hu, Hailin Shi, Yanyan Liang, Zhen Lei, Du Zhang,
- Abstract要約: グロースフリーなSLRLのための革新的な事前学習パラダイムC$2$RLを導入する。
C$2$RLはBLEU-4のスコアをP14Tで+5.3、CSLで+10.6、OpenASLで+6.2、How2Signで+1.3改善する。
また、P14Tでは+8.3、CSLでは+14.4、How2Signでは+5.9でR@1スコアが上昇した。
- 参考スコア(独自算出の注目度): 37.12863427950066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign Language Representation Learning (SLRL) is crucial for a range of sign language-related downstream tasks such as Sign Language Translation (SLT) and Sign Language Retrieval (SLRet). Recently, many gloss-based and gloss-free SLRL methods have been proposed, showing promising performance. Among them, the gloss-free approach shows promise for strong scalability without relying on gloss annotations. However, it currently faces suboptimal solutions due to challenges in encoding the intricate, context-sensitive characteristics of sign language videos, mainly struggling to discern essential sign features using a non-monotonic video-text alignment strategy. Therefore, we introduce an innovative pretraining paradigm for gloss-free SLRL, called C${^2}$RL, in this paper. Specifically, rather than merely incorporating a non-monotonic semantic alignment of video and text to learn language-oriented sign features, we emphasize two pivotal aspects of SLRL: Implicit Content Learning (ICL) and Explicit Context Learning (ECL). ICL delves into the content of communication, capturing the nuances, emphasis, timing, and rhythm of the signs. In contrast, ECL focuses on understanding the contextual meaning of signs and converting them into equivalent sentences. Despite its simplicity, extensive experiments confirm that the joint optimization of ICL and ECL results in robust sign language representation and significant performance gains in gloss-free SLT and SLRet tasks. Notably, C${^2}$RL improves the BLEU-4 score by +5.3 on P14T, +10.6 on CSL-daily, +6.2 on OpenASL, and +1.3 on How2Sign. It also boosts the R@1 score by +8.3 on P14T, +14.4 on CSL-daily, and +5.9 on How2Sign. Additionally, we set a new baseline for the OpenASL dataset in the SLRet task.
- Abstract(参考訳): 手話表現学習(SLRL)は手話翻訳(SLT)や手話検索(SLRet)といった手話関連下流タスクに不可欠である。
近年,多くの光沢性および光沢性のないSLRL法が提案され,有望な性能を示している。
その中で、グロスフリーなアプローチは、グロスアノテーションに頼ることなく、強力なスケーラビリティを約束することを示している。
しかし,非モノトニックなビデオテキストアライメント戦略を用いて,手話ビデオの複雑な,文脈に敏感な特徴を符号化することの難しさから,現在,サブ最適化の課題に直面している。
そこで本稿では,Gloss-free SLRL のための革新的な事前学習パラダイム C${^2}$RL を紹介する。
具体的には、ビデオとテキストの非単調なセマンティックアライメントを言語指向の手話の特徴を学習するために組み込むのではなく、SLRLの2つの重要な側面であるインプリシットコンテンツラーニング(ICL)とエクスプリシットコンテキストラーニング(ECL)を強調した。
ICLはコミュニケーションの内容を理解し、ニュアンス、強調、タイミング、リズムを捉えます。
対照的に、ECLは記号の文脈的意味を理解し、それらを等価な文に変換することに重点を置いている。
その単純さにもかかわらず、ICLとECLの合同最適化により、グロスフリーのSLTおよびSLRetタスクにおいて、堅牢な手話表現と顕著なパフォーマンス向上が得られることが、広範な実験で確認されている。
特に、C${^2}$RLは、P14Tで+5.3、CSLで+10.6、OpenASLで+6.2、How2Signで+1.3改善している。
また、P14Tでは+8.3、CSLでは+14.4、How2Signでは+5.9でR@1スコアが上昇した。
さらに,SLRetタスクにおいて,OpenASLデータセットの新たなベースラインを設定した。
関連論文リスト
- LLaVA-SLT: Visual Language Tuning for Sign Language Translation [42.20090162339927]
近年の手話翻訳(SLT)の進歩は将来性を示しているが、精度の面ではグロスベースのアプローチに大きく遅れていることが多い。
我々はLLaVA-SLTというLarge Multimodal Model (LMM) フレームワークを紹介した。
LLaVA-SLTは最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-21T08:01:08Z) - A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production [9.065171626657818]
本稿では,手話翻訳(SLT)と手話生成言語(SLP)におけるグロスの使用に関する課題について述べる。
テンポラリな手話をキャプチャするフレームワークUniGloR(UniGloR)を導入する。
キーポイントに基づく設定実験により、UniGloRは従来のSLT法やSLP法よりも性能が優れているか、一致していることが示された。
論文 参考訳(メタデータ) (2024-07-03T07:12:36Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。
本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。
我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-07T10:00:38Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-14T14:07:55Z) - Gloss-Free End-to-End Sign Language Translation [59.28829048788345]
我々はGloFE(Gloss-Free End-to-end手話翻訳フレームワーク)を設計する。
本手法は,信号の共通意味と対応する音声翻訳を利用して,光沢のない環境下でのSLTの性能を向上させる。
OpenASLやHow2Signなど,大規模データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-05-22T09:57:43Z) - Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。
グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。
提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。