論文の概要: A Token-level Contrastive Framework for Sign Language Translation
- arxiv url: http://arxiv.org/abs/2204.04916v3
- Date: Tue, 21 Mar 2023 12:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:45:03.021311
- Title: A Token-level Contrastive Framework for Sign Language Translation
- Title(参考訳): 手話翻訳のためのトークンレベルのコントラストフレームワーク
- Authors: Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen,
Xiaodong Shi
- Abstract要約: 手話翻訳は、聴覚障害者と聴覚障害者のコミュニケーションギャップを埋める有望な技術である。
トークンレベルの新しい ConSLT を提案する。
textbfSign textbfLanguage用のコントラスト学習フレームワーク。
textbf翻訳。
- 参考スコア(独自算出の注目度): 9.185037439012952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign Language Translation (SLT) is a promising technology to bridge the
communication gap between the deaf and the hearing people. Recently,
researchers have adopted Neural Machine Translation (NMT) methods, which
usually require large-scale corpus for training, to achieve SLT. However, the
publicly available SLT corpus is very limited, which causes the collapse of the
token representations and the inaccuracy of the generated tokens. To alleviate
this issue, we propose ConSLT, a novel token-level \textbf{Con}trastive
learning framework for \textbf{S}ign \textbf{L}anguage \textbf{T}ranslation ,
which learns effective token representations by incorporating token-level
contrastive learning into the SLT decoding process. Concretely, ConSLT treats
each token and its counterpart generated by different dropout masks as positive
pairs during decoding, and then randomly samples $K$ tokens in the vocabulary
that are not in the current sentence to construct negative examples. We conduct
comprehensive experiments on two benchmarks (PHOENIX14T and CSL-Daily) for both
end-to-end and cascaded settings. The experimental results demonstrate that
ConSLT can achieve better translation quality than the strong baselines.
- Abstract(参考訳): 手話翻訳(slt)は聴覚障害者と聴覚障害者の間のコミュニケーションギャップを埋める有望な技術である。
近年,SLTを実現するために,大規模コーパスを必要とするニューラルネットワーク翻訳(NMT)手法が採用されている。
しかし、公開されているSLTコーパスは非常に限られており、トークン表現の崩壊と生成されたトークンの不正確さを引き起こす。
本稿では,トークンレベルのコントラスト学習をSLT復号プロセスに組み込むことで,トークンレベルのコントラスト学習を効果的に学習するConSLTを提案する。
具体的には、consltはデコード中に異なるドロップアウトマスクによって生成されたトークンとそのトークンを正のペアとして扱い、現在文にない語彙の$k$トークンをランダムにサンプリングして負の例を生成する。
我々は2つのベンチマーク(phoenix14tとcsl-daily)について、エンドツーエンドとカスケードの両方の設定で包括的な実験を行う。
実験により,ConSLTは強いベースラインよりも優れた翻訳品質が得られることが示された。
関連論文リスト
- BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-21T13:05:18Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Weighted Sampling for Masked Language Modeling [12.25238763907731]
トークン周波数とトレーニング損失に基づいてトークンをマスキングするための2つの簡易かつ効果的な重み付きサンプリング手法を提案する。
これら2つの戦略をBERTに適用し、重み付きBERT(WSBERT)を得る。
論文 参考訳(メタデータ) (2023-02-28T01:07:39Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。