論文の概要: SLTUNET: A Simple Unified Model for Sign Language Translation
- arxiv url: http://arxiv.org/abs/2305.01778v1
- Date: Tue, 2 May 2023 20:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 16:40:16.168479
- Title: SLTUNET: A Simple Unified Model for Sign Language Translation
- Title(参考訳): SLTUNET:手話翻訳のための簡易統一モデル
- Authors: Biao Zhang, Mathias M\"uller, Rico Sennrich
- Abstract要約: 複数のサイン・トゥ・グロス、グロス・トゥ・テキストおよびサイン・トゥ・テキスト翻訳タスクをサポートするために設計された単純な統合ニューラルモデルを提案する。
様々なタスクを共同でモデリングすることで、SLTUNETは、モダリティギャップを狭めるのに役立つクロスタスク関連性を探索することができる。
実験では, ENIX-2014T と CSL-Daily において, SLTUNET が競争力, 最先端のパフォーマンスを達成できることを示す。
- 参考スコア(独自算出の注目度): 40.93099095994472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent successes with neural models for sign language translation
(SLT), translation quality still lags behind spoken languages because of the
data scarcity and modality gap between sign video and text. To address both
problems, we investigate strategies for cross-modality representation sharing
for SLT. We propose SLTUNET, a simple unified neural model designed to support
multiple SLTrelated tasks jointly, such as sign-to-gloss, gloss-to-text and
sign-to-text translation. Jointly modeling different tasks endows SLTUNET with
the capability to explore the cross-task relatedness that could help narrow the
modality gap. In addition, this allows us to leverage the knowledge from
external resources, such as abundant parallel data used for spoken-language
machine translation (MT). We show in experiments that SLTUNET achieves
competitive and even state-of-the-art performance on PHOENIX-2014T and
CSL-Daily when augmented with MT data and equipped with a set of optimization
techniques. We further use the DGS Corpus for end-to-end SLT for the first
time. It covers broader domains with a significantly larger vocabulary, which
is more challenging and which we consider to allow for a more realistic
assessment of the current state of SLT than the former two. Still, SLTUNET
obtains improved results on the DGS Corpus. Code is available at
https://github.com/bzhangGo/sltunet.
- Abstract(参考訳): 近年、手話翻訳(SLT)のニューラルモデルの成功にもかかわらず、データ不足と手話とテキスト間のモダリティのギャップのため、翻訳品質は音声言語より遅れている。
両問題に対処するため,SLTにおけるモダリティ間表現共有戦略について検討する。
本稿では,SLTUNETを提案する。SLTUNETは,複数のSLT関連タスクを協調的にサポートするために設計された単純な統合ニューラルモデルである。
異なるタスクを共同でモデリングすることでsltunetは、モダリティギャップを狭めることができるクロスタスク関連性を調べることができる。
加えて、これは言語機械翻訳(mt)に使用される豊富な並列データのような外部リソースからの知識を活用できる。
PHOENIX-2014TとCSL-DailyをMTデータで拡張し,一連の最適化手法を用いて,SLTUNETがPHOENIX-2014TとCSL-Dailyの競合および最先端性能を実現する実験を行った。
DGS Corpus をエンドツーエンド SLT に初めて使用する。
より広い領域の語彙をカバーしており、これはより困難であり、以前の2つよりも現実的なSLT状態の評価を可能にしていると考えています。
それでも、SLTUNETはDGS Corpusで改善された結果を得る。
コードはhttps://github.com/bzhanggo/sltunetで入手できる。
関連論文リスト
- Diverse Sign Language Translation [27.457810402402387]
本稿では,手話ビデオの多種多様かつ正確な翻訳を実現するために,DivSLT(Diverse Sign Language Translation)タスクを導入する。
我々は大規模言語モデル(LLM)を用いて、広く使われているCSL-DailyとPHOENIX14T SLTデータセットの複数の参照を生成する。
具体的には、DivSLTモデルが多様な翻訳を実現するためのマルチ参照トレーニング戦略について検討する。
論文 参考訳(メタデータ) (2024-10-25T14:28:20Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。