論文の概要: ConSLT: A Token-level Contrastive Framework for Sign Language
Translation
- arxiv url: http://arxiv.org/abs/2204.04916v1
- Date: Mon, 11 Apr 2022 07:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 15:48:37.195294
- Title: ConSLT: A Token-level Contrastive Framework for Sign Language
Translation
- Title(参考訳): ConSLT:手話翻訳のためのトークンレベルのコントラストフレームワーク
- Authors: Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen,
Xiaodong Shi
- Abstract要約: ConSLTは、textbfSign textbfLanguage textbfTranslationのためのトークンレベルのTextbfContrastive Learningフレームワークである。
まず,現在最先端の連続手話認識モデルを用いて,手話フレームのグルース認識を行う。
翻訳段階では、コントラスト学習を導入しながらTransformerフレームワークを採用する。
- 参考スコア(独自算出の注目度): 9.185037439012952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language translation (SLT) is an important technology that can bridge
the communication gap between the deaf and the hearing people. SLT task is
essentially a low-resource problem due to the scarcity of publicly available
parallel data. To this end, inspired by the success of neural machine
translation methods based on contrastive learning, we propose ConSLT, a novel
token-level \textbf{Con}trastive learning framework for \textbf{S}ign
\textbf{L}anguage \textbf{T}ranslation. Unlike previous contrastive learning
based works whose goal is to obtain better sentence representation, ConSLT aims
to learn effective token representation by pushing apart tokens from different
sentences. Concretely, our model follows the two-stage SLT method. First, in
the recoginition stage, we use a state-of-the-art continuous sign language
recognition model to recognize glosses from sign frames. Then, in the
translation stage, we adopt the Transformer framework while introducing
contrastive learning. Specifically, we pass each sign glosses to the
Transformer model twice to obtain two different hidden layer representations
for each token as "positive examples" and randomly sample K tokens that are not
in the current sentence from the vocabulary as "negative examples" for each
token. Experimental results demonstrate that ConSLT achieves new
state-of-the-art performance on PHOENIX14T dataset, with +1.48 BLEU
improvements.
- Abstract(参考訳): 手話翻訳(SLT)は、聴覚障害者と聴覚障害者のコミュニケーションギャップを埋める重要な技術である。
SLTタスクは、一般に公開されている並列データの不足のため、本質的に低リソースの問題である。
この目的のために、コントラスト学習に基づくニューラルネットワーク翻訳手法の成功に触発されて、新しいトークンレベル \textbf{Con}trastive learning framework for \textbf{S}ign \textbf{L}anguage \textbf{T}ranslationを提案する。
より良い文表現を得ることを目標とする従来の対照的な学習ベースワークとは異なり、ConSLTは異なる文からトークンを分割することで効果的なトークン表現を学習することを目指している。
具体的には,二段階slt法をモデルとした。
まず、再登録段階では、最先端の連続手話認識モデルを用いて手話フレームからの光沢を認識する。
そして、翻訳段階では、コントラスト学習を導入しながら、トランスフォーマフレームワークを採用する。
具体的には、各符号の光沢をトランスフォーマーモデルに2回渡し、各トークンの2つの異なる隠れレイヤ表現を「ポジティブな例」として取得し、各トークンの語彙から現在文にないkトークンを「ネガティブな例」としてランダムにサンプリングする。
実験の結果、ConSLTはPHOENIX14Tデータセット上で新しい最先端のパフォーマンスを実現し、+1.48BLEUが改善された。
関連論文リスト
- BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-21T13:05:18Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Weighted Sampling for Masked Language Modeling [12.25238763907731]
トークン周波数とトレーニング損失に基づいてトークンをマスキングするための2つの簡易かつ効果的な重み付きサンプリング手法を提案する。
これら2つの戦略をBERTに適用し、重み付きBERT(WSBERT)を得る。
論文 参考訳(メタデータ) (2023-02-28T01:07:39Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。