論文の概要: A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation
- arxiv url: http://arxiv.org/abs/2203.04287v2
- Date: Thu, 23 Mar 2023 02:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 18:45:20.354702
- Title: A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation
- Title(参考訳): 手話翻訳のための簡易マルチモダリティトランスファー学習ベースライン
- Authors: Yutong Chen, Fangyun Wei, Xiao Sun, Zhirong Wu, Stephen Lin
- Abstract要約: 既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
- 参考スコア(独自算出の注目度): 54.29679610921429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a simple transfer learning baseline for sign language
translation. Existing sign language datasets (e.g. PHOENIX-2014T, CSL-Daily)
contain only about 10K-20K pairs of sign videos, gloss annotations and texts,
which are an order of magnitude smaller than typical parallel data for training
spoken language translation models. Data is thus a bottleneck for training
effective sign language translation models. To mitigate this problem, we
propose to progressively pretrain the model from general-domain datasets that
include a large amount of external supervision to within-domain datasets.
Concretely, we pretrain the sign-to-gloss visual network on the general domain
of human actions and the within-domain of a sign-to-gloss dataset, and pretrain
the gloss-to-text translation network on the general domain of a multilingual
corpus and the within-domain of a gloss-to-text corpus. The joint model is
fine-tuned with an additional module named the visual-language mapper that
connects the two networks. This simple baseline surpasses the previous
state-of-the-art results on two sign language translation benchmarks,
demonstrating the effectiveness of transfer learning. With its simplicity and
strong performance, this approach can serve as a solid baseline for future
research. Code and models are available at: https://github.com/FangyunWei/SLRT.
- Abstract(参考訳): 本論文では,手話翻訳のための簡単なトランスファー学習ベースラインを提案する。
既存の手話データセット(例えばphoenix-2014t、csl-daily)は、音声翻訳モデルのトレーニングのために典型的な並列データよりも桁違いに小さい手話ビデオ、注釈、テキストの約10k-20kペアしか含まない。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この問題を軽減するため、我々は、大量の外部監視を含む汎用ドメインデータセットからドメイン内データセットへのモデルを段階的に事前訓練することを提案する。
具体的には、人間のアクションの一般的なドメインと、sign-to-glossデータセットのinsideドメインについてsign-to-gloss視覚ネットワークを事前学習し、多言語コーパスの一般ドメインとgloss-to-textコーパスのinside-domainに対してgloss-to-text翻訳ネットワークを事前学習する。
ジョイントモデルは、2つのネットワークを接続する視覚言語マッパーと呼ばれる追加モジュールで微調整される。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端結果を上回っ、転送学習の有効性を実証する。
その単純さと強力な性能により、このアプローチは将来の研究の確かなベースラインとなる。
コードとモデルは、https://github.com/FangyunWei/SLRT.comで入手できる。
関連論文リスト
- Scaling Sign Language Translation [38.43594795927101]
手話翻訳(SLT)は、ビデオ中の手話からテキスト中の音声言語への情報を翻訳する問題に対処する。
本稿では,事前学習データ,モデルサイズ,翻訳方向の数を拡大することにより,SLTのフロンティアを推し進める。
実験では、バニラベースラインよりも大幅に品質が向上し、以前のSOTA(State-of-the-art)をはるかに上回った。
論文 参考訳(メタデータ) (2024-07-16T15:36:58Z) - Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。
本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。
我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-07T10:00:38Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。