論文の概要: Master Thesis: Neural Sign Language Translation by Learning Tokenization
- arxiv url: http://arxiv.org/abs/2011.09289v1
- Date: Wed, 18 Nov 2020 13:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 04:04:34.454117
- Title: Master Thesis: Neural Sign Language Translation by Learning Tokenization
- Title(参考訳): master thesis: トークン化学習によるニューラル手話翻訳
- Authors: Alptekin Orbay
- Abstract要約: ニューラル手話翻訳(NSLT)を改善するためのマルチタスク学習手法を提案する。
トークン化のパートでは、手話(SL)ビデオを他の部分に送出する方法に重点を置いている。
すべてのトークン化手法における広範囲な実験により, 身体部位の効果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this thesis, we propose a multitask learning based method to improve
Neural Sign Language Translation (NSLT) consisting of two parts, a tokenization
layer and Neural Machine Translation (NMT). The tokenization part focuses on
how Sign Language (SL) videos should be represented to be fed into the other
part. It has not been studied elaborately whereas NMT research has attracted
several researchers contributing enormous advancements. Up to now, there are
two main input tokenization levels, namely frame-level and gloss-level
tokenization. Glosses are world-like intermediate presentation and unique to
SLs. Therefore, we aim to develop a generic sign-level tokenization layer so
that it is applicable to other domains without further effort. We begin with
investigating current tokenization approaches and explain their weaknesses with
several experiments. To provide a solution, we adapt Transfer Learning,
Multitask Learning and Unsupervised Domain Adaptation into this research to
leverage additional supervision. We succeed in enabling knowledge transfer
between SLs and improve translation quality by 5 points in BLEU-4 and 8 points
in ROUGE scores. Secondly, we show the effects of body parts by extensive
experiments in all the tokenization approaches. Apart from these, we adopt
3D-CNNs to improve efficiency in terms of time and space. Lastly, we discuss
the advantages of sign-level tokenization over gloss-level tokenization. To sum
up, our proposed method eliminates the need for gloss level annotation to
obtain higher scores by providing additional supervision by utilizing weak
supervision sources.
- Abstract(参考訳): 本稿では,トークン化層とニューラル機械翻訳(NMT)の2つの部分からなるニューラル手話翻訳(NSLT)を改善するためのマルチタスク学習手法を提案する。
トークン化のパートでは、手話(SL)ビデオを他の部分に送出する方法に重点を置いている。
nmt研究はいくつかの研究者を惹きつけ、大きな進歩に貢献した。
これまでの入力トークン化には、フレームレベルとグロスレベルの2つの主要なレベルがある。
グロースはワールドライクな中間的なプレゼンテーションであり、SL特有のものだ。
そこで我々は,他のドメインに適用可能な汎用的なサインレベルトークン化層を開発することを目的としている。
いくつかの実験で現在のトークン化アプローチを調査し、その弱点を説明することから始める。
提案手法では,トランスファー学習,マルチタスク学習,非教師なしドメイン適応を本研究に導入し,さらなる監督を行う。
我々は,SL間の知識伝達を実現し,BLEU-4では5ポイント,ROUGEスコアでは8ポイントの翻訳品質を向上させることに成功した。
第2に,全トークン化アプローチにおける広範囲な実験により,身体部位の効果を示す。
これらとは別に、時間と空間の観点から効率を改善するために3d-cnnを採用しています。
最後に、光度レベルトークン化よりも符号レベルトークン化の利点について論じる。
そこで本提案手法では,弱監督源を活用することで,より高いスコアを得るための光沢レベルアノテーションの必要性を解消する。
関連論文リスト
- TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Slot Induction via Pre-trained Language Model Probing and Multi-level
Contrastive Learning [62.839109775887025]
トークンレベルのスロットアノテーションの明示的な知識なしでスロット境界を誘導することを目的としたスロットインジェクション(SI)タスク。
PLMから抽出した教師なし意味知識を活用するために、教師なし事前学習言語モデル(PLM)探索とコントラスト学習機構を活用することを提案する。
提案手法は,2つのNLUベンチマークデータセット上でトークンレベルの教師付きモデルとのギャップを埋めることができ,SIタスクに有効であることが示されている。
論文 参考訳(メタデータ) (2023-08-09T05:08:57Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Improving Speech Translation by Understanding and Learning from the
Auxiliary Text Translation Task [26.703809355057224]
我々は,タスクがマルチタスク学習フレームワークにおけるメインタスクに与える影響を理解するために,詳細な分析を行う。
解析により、マルチタスク学習は、異なるモダリティから同様のデコーダ表現を生成する傾向があることを確認した。
これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
論文 参考訳(メタデータ) (2021-07-12T23:53:40Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z) - Neural Sign Language Translation by Learning Tokenization [2.741266294612776]
本稿では,Adversarial, Multitask, Transfer Learning を用いて,ラベル付けの負担を伴わずに半教師付きトークン化手法を探索する。
提案手法は13.25 BLUE-4と36.28 ROUGEのスコアを達成し、BLUE-4の4点とROUGEの5点に改善した。
論文 参考訳(メタデータ) (2020-02-02T19:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。