論文の概要: Improving Gloss-free Sign Language Translation by Reducing Representation Density
- arxiv url: http://arxiv.org/abs/2405.14312v2
- Date: Mon, 28 Oct 2024 19:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:46.048524
- Title: Improving Gloss-free Sign Language Translation by Reducing Representation Density
- Title(参考訳): 表現密度の低減によるグロスフリー手話翻訳の改善
- Authors: Jinhui Ye, Xing Wang, Wenxiang Jiao, Junwei Liang, Hui Xiong,
- Abstract要約: Gloss-free sign language translation (SLT) は、コストのかかるGlossアノテーションを必要とせずに、良好なパフォーマンスのSLTシステムを開発することを目的としている。
我々は、光沢のないSLTの性能を制限するボトルネックとなる表現密度問題を特定する。
比較学習戦略,すなわちSignCLを導入し,より差別的な特徴表現を学習するための光沢のないモデルを提案する。
- 参考スコア(独自算出の注目度): 38.24463842418624
- License:
- Abstract: Gloss-free sign language translation (SLT) aims to develop well-performing SLT systems with no requirement for the costly gloss annotations, but currently still lags behind gloss-based approaches significantly. In this paper, we identify a representation density problem that could be a bottleneck in restricting the performance of gloss-free SLT. Specifically, the representation density problem describes that the visual representations of semantically distinct sign gestures tend to be closely packed together in feature space, which makes gloss-free methods struggle with distinguishing different sign gestures and suffer from a sharp performance drop. To address the representation density problem, we introduce a simple but effective contrastive learning strategy, namely SignCL, which encourages gloss-free models to learn more discriminative feature representation in a self-supervised manner. Our experiments demonstrate that the proposed SignCL can significantly reduce the representation density and improve performance across various translation frameworks. Specifically, SignCL achieves a significant improvement in BLEU score for the Sign Language Transformer and GFSLT-VLP on the CSL-Daily dataset by 39% and 46%, respectively, without any increase of model parameters. Compared to Sign2GPT, a state-of-the-art method based on large-scale pre-trained vision and language models, SignCL achieves better performance with only 35% of its parameters. Implementation and Checkpoints are available at https://github.com/JinhuiYE/SignCL.
- Abstract(参考訳): グロスフリー手話翻訳(SLT)は、高価なグロスアノテーションを必要としない高性能なSLTシステムを開発することを目的としているが、現時点ではグロスベースのアプローチに大きく遅れている。
本稿では、光沢のないSLTの性能を制限するボトルネックとなる表現密度問題を特定する。
特に、表現密度問題は、意味的に区別された手話の視覚的表現が特徴空間に密に束ねられている傾向があることを示しており、光沢のない手法は異なる手話の区別に苦労し、鋭いパフォーマンス低下に悩まされる。
表現密度問題に対処するために,手軽だが効果的な比較学習戦略であるSignCLを導入する。
実験により,提案したSignCLは表現密度を大幅に低減し,様々な翻訳フレームワークにおける性能向上を図っている。
具体的には,手話変換器のBLEUスコアとCSL-DailyデータセットのGFSLT-VLPをそれぞれ39%,モデルパラメータの増大なく46%向上させる。
大規模な事前学習された視覚と言語モデルに基づく最先端の手法であるSign2GPTと比較して、SignCLはパラメータの35%しか持たないパフォーマンスを実現している。
実装とチェックポイントはhttps://github.com/JinhuiYE/SignCLで入手できる。
関連論文リスト
- C${^2}$RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval [37.12863427950066]
グロースフリーなSLRLのための革新的な事前学習パラダイムC$2$RLを導入する。
C$2$RLはBLEU-4のスコアをP14Tで+5.3、CSLで+10.6、OpenASLで+6.2、How2Signで+1.3改善する。
また、P14Tでは+8.3、CSLでは+14.4、How2Signでは+5.9でR@1スコアが上昇した。
論文 参考訳(メタデータ) (2024-08-19T12:42:10Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-14T14:07:55Z) - Gloss-Free End-to-End Sign Language Translation [59.28829048788345]
我々はGloFE(Gloss-Free End-to-end手話翻訳フレームワーク)を設計する。
本手法は,信号の共通意味と対応する音声翻訳を利用して,光沢のない環境下でのSLTの性能を向上させる。
OpenASLやHow2Signなど,大規模データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-05-22T09:57:43Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。
グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。
提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。