論文の概要: A Token-level Contrastive Framework for Sign Language Translation
- arxiv url: http://arxiv.org/abs/2204.04916v3
- Date: Tue, 21 Mar 2023 12:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:45:03.021311
- Title: A Token-level Contrastive Framework for Sign Language Translation
- Title(参考訳): 手話翻訳のためのトークンレベルのコントラストフレームワーク
- Authors: Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen,
Xiaodong Shi
- Abstract要約: 手話翻訳は、聴覚障害者と聴覚障害者のコミュニケーションギャップを埋める有望な技術である。
トークンレベルの新しい ConSLT を提案する。
textbfSign textbfLanguage用のコントラスト学習フレームワーク。
textbf翻訳。
- 参考スコア(独自算出の注目度): 9.185037439012952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign Language Translation (SLT) is a promising technology to bridge the
communication gap between the deaf and the hearing people. Recently,
researchers have adopted Neural Machine Translation (NMT) methods, which
usually require large-scale corpus for training, to achieve SLT. However, the
publicly available SLT corpus is very limited, which causes the collapse of the
token representations and the inaccuracy of the generated tokens. To alleviate
this issue, we propose ConSLT, a novel token-level \textbf{Con}trastive
learning framework for \textbf{S}ign \textbf{L}anguage \textbf{T}ranslation ,
which learns effective token representations by incorporating token-level
contrastive learning into the SLT decoding process. Concretely, ConSLT treats
each token and its counterpart generated by different dropout masks as positive
pairs during decoding, and then randomly samples $K$ tokens in the vocabulary
that are not in the current sentence to construct negative examples. We conduct
comprehensive experiments on two benchmarks (PHOENIX14T and CSL-Daily) for both
end-to-end and cascaded settings. The experimental results demonstrate that
ConSLT can achieve better translation quality than the strong baselines.
- Abstract(参考訳): 手話翻訳(slt)は聴覚障害者と聴覚障害者の間のコミュニケーションギャップを埋める有望な技術である。
近年,SLTを実現するために,大規模コーパスを必要とするニューラルネットワーク翻訳(NMT)手法が採用されている。
しかし、公開されているSLTコーパスは非常に限られており、トークン表現の崩壊と生成されたトークンの不正確さを引き起こす。
本稿では,トークンレベルのコントラスト学習をSLT復号プロセスに組み込むことで,トークンレベルのコントラスト学習を効果的に学習するConSLTを提案する。
具体的には、consltはデコード中に異なるドロップアウトマスクによって生成されたトークンとそのトークンを正のペアとして扱い、現在文にない語彙の$k$トークンをランダムにサンプリングして負の例を生成する。
我々は2つのベンチマーク(phoenix14tとcsl-daily)について、エンドツーエンドとカスケードの両方の設定で包括的な実験を行う。
実験により,ConSLTは強いベースラインよりも優れた翻訳品質が得られることが示された。
関連論文リスト
- Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - SLTUNET: A Simple Unified Model for Sign Language Translation [40.93099095994472]
複数のサイン・トゥ・グロス、グロス・トゥ・テキストおよびサイン・トゥ・テキスト翻訳タスクをサポートするために設計された単純な統合ニューラルモデルを提案する。
様々なタスクを共同でモデリングすることで、SLTUNETは、モダリティギャップを狭めるのに役立つクロスタスク関連性を探索することができる。
実験では, ENIX-2014T と CSL-Daily において, SLTUNET が競争力, 最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2023-05-02T20:41:59Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Weighted Sampling for Masked Language Modeling [12.25238763907731]
トークン周波数とトレーニング損失に基づいてトークンをマスキングするための2つの簡易かつ効果的な重み付きサンプリング手法を提案する。
これら2つの戦略をBERTに適用し、重み付きBERT(WSBERT)を得る。
論文 参考訳(メタデータ) (2023-02-28T01:07:39Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。