Fugu-MT 論文翻訳(概要): Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining

論文の概要: Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining

arxiv url: http://arxiv.org/abs/2307.14768v1
Date: Thu, 27 Jul 2023 10:59:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-28 14:51:14.952144
Title: Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining
Title（参考訳）: グロスフリー手話翻訳:ビジュアル言語事前学習の改善
Authors: Benjia Zhou and Zhigang Chen and Albert Clap\'es and Jun Wan and Yanyan Liang and Sergio Escalera and Zhen Lei and Du Zhang
Abstract要約: Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。 i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
参考スコア（独自算出の注目度）: 56.26550923909137
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sign Language Translation (SLT) is a challenging task due to its cross-domain nature, involving the translation of visual-gestural language to text. Many previous methods employ an intermediate representation, i.e., gloss sequences, to facilitate SLT, thus transforming it into a two-stage task of sign language recognition (SLR) followed by sign language translation (SLT). However, the scarcity of gloss-annotated sign language data, combined with the information bottleneck in the mid-level gloss representation, has hindered the further development of the SLT task. To address this challenge, we propose a novel Gloss-Free SLT based on Visual-Language Pretraining (GFSLT-VLP), which improves SLT by inheriting language-oriented prior knowledge from pre-trained models, without any gloss annotation assistance. Our approach involves two stages: (i) integrating Contrastive Language-Image Pre-training (CLIP) with masked self-supervised learning to create pre-tasks that bridge the semantic gap between visual and textual representations and restore masked sentences, and (ii) constructing an end-to-end architecture with an encoder-decoder-like structure that inherits the parameters of the pre-trained Visual Encoder and Text Decoder from the first stage. The seamless combination of these novel designs forms a robust sign language representation and significantly improves gloss-free sign language translation. In particular, we have achieved unprecedented improvements in terms of BLEU-4 score on the PHOENIX14T dataset (>+5) and the CSL-Daily dataset (>+3) compared to state-of-the-art gloss-free SLT methods. Furthermore, our approach also achieves competitive results on the PHOENIX14T dataset when compared with most of the gloss-based methods. Our code is available at https://github.com/zhoubenjia/GFSLT-VLP.
Abstract（参考訳）: 手話翻訳(SLT)は、視覚的なジェスチャー言語からテキストへの翻訳を含む、ドメイン横断的な性質のため難しい課題である。従来の多くの手法では、SLTを促進するためにグロスシーケンスという中間表現を使用しており、手話認識(SLR)の2段階のタスクに変換され、次に手話翻訳(SLT)が続く。しかし、中級光沢表現における情報ボトルネックと相まって、光沢注釈付き手話データの不足は、SLTタスクのさらなる発展を妨げている。この課題に対処するために,視覚言語事前学習(GFSLT-VLP)に基づく新しいGross-Free SLTを提案する。私たちのアプローチには2つの段階があります一コントラスト言語画像事前学習(CLIP)とマスク付き自己指導学習を統合して、視覚表現とテキスト表現のセマンティックギャップを橋渡しし、マスク付き文章を復元する事前タスクを作成すること。 i) 事前学習したVisual Encoder と Text Decoder のパラメータを第1段階から継承する encoder-decoder-like 構造でエンドツーエンドアーキテクチャを構築する。これらの新しいデザインのシームレスな組み合わせは、堅牢な手話表現を形成し、光沢のない手話翻訳を大幅に改善する。特にPHOENIX14Tデータセット(+5)とCSL-Dailyデータセット(+3)のBLEU-4スコアに関して、最先端のGloss-free SLT法と比較して前例のない改善を実現した。さらに,本手法は,Gloss-based法と比較した場合,PHOENIX14Tデータセットの競合結果も達成する。私たちのコードはhttps://github.com/zhoubenjia/GFSLT-VLPで公開されています。

関連論文リスト

Contrastive Pretraining with Dual Visual Encoders for Gloss-Free Sign Language Translation [33.48154010885497]
手話翻訳(SLT)は、手話動画を音声やテキストに変換することを目的としている。グロースフリーSLTのための2相デュアルビジュアルエンコーダフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-14T14:09:36Z)
Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T12:19:55Z)
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。署名ビデオと追加のコンテキストキューを組み込む。文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-01-16T18:59:03Z)
LLaVA-SLT: Visual Language Tuning for Sign Language Translation [42.20090162339927]
近年の手話翻訳(SLT)の進歩は将来性を示しているが、精度の面ではグロスベースのアプローチに大きく遅れていることが多い。我々はLLaVA-SLTというLarge Multimodal Model (LMM) フレームワークを紹介した。 LLaVA-SLTは最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-21T08:01:08Z)
DiffSLT: Enhancing Diversity in Sign Language Translation via Diffusion Model [9.452839238264286]
そこで我々は,Gloss-free手話翻訳フレームワークであるDiffSLTを提案する。 DiffSLTは、入力ビデオの視覚的特徴に基づいてランダムノイズをターゲット潜在表現に変換する。 DiffSLT-Pは擬似グルースによる視覚的特徴の条件を定め、重要なテキストガイダンスを提供し、モダリティのギャップを減らし、DiffSLT-Pを導入している。
論文参考訳（メタデータ） (2024-11-26T09:26:36Z)
C${^2}$RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval [37.12863427950066]
グロースフリーなSLRLのための革新的な事前学習パラダイムC$2$RLを導入する。 C$2$RLはBLEU-4のスコアをP14Tで+5.3、CSLで+10.6、OpenASLで+6.2、How2Signで+1.3改善する。また、P14Tでは+8.3、CSLでは+14.4、How2Signでは+5.9でR@1スコアが上昇した。
論文参考訳（メタデータ） (2024-08-19T12:42:10Z)
A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production [9.065171626657818]
本稿では,手話翻訳(SLT)と手話生成言語(SLP)におけるグロスの使用に関する課題について述べる。テンポラリな手話をキャプチャするフレームワークUniGloR(UniGloR)を導入する。キーポイントに基づく設定実験により、UniGloRは従来のSLT法やSLP法よりも性能が優れているか、一致していることが示された。
論文参考訳（メタデータ） (2024-07-03T07:12:36Z)
A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-16T17:19:06Z)
SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。従来の方法と比較して最先端の結果が得られます。
論文参考訳（メタデータ） (2024-01-22T11:04:55Z)
Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-18T16:34:18Z)
Changing the Representation: Examining Language Representation for Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。 BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文参考訳（メタデータ） (2022-09-16T12:45:29Z)
Explore More Guidance: A Task-aware Instruction Network for Sign Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文参考訳（メタデータ） (2022-04-12T17:09:44Z)
A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文参考訳（メタデータ） (2022-03-08T18:59:56Z)
Improving Sign Language Translation with Monolingual Data by Sign Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文参考訳（メタデータ） (2021-05-26T08:49:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。