論文の概要: SimulSLT: End-to-End Simultaneous Sign Language Translation
- arxiv url: http://arxiv.org/abs/2112.04228v1
- Date: Wed, 8 Dec 2021 11:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:39:02.231250
- Title: SimulSLT: End-to-End Simultaneous Sign Language Translation
- Title(参考訳): SimulSLT: エンドツーエンドの手話翻訳
- Authors: Aoxiong Yin, Zhou Zhao, Jinglin Liu, Weike Jin, Meng Zhang, Xingshan
Zeng, Xiaofei He
- Abstract要約: 既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
- 参考スコア(独自算出の注目度): 55.54237194555432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language translation as a kind of technology with profound social
significance has attracted growing researchers' interest in recent years.
However, the existing sign language translation methods need to read all the
videos before starting the translation, which leads to a high inference latency
and also limits their application in real-life scenarios. To solve this
problem, we propose SimulSLT, the first end-to-end simultaneous sign language
translation model, which can translate sign language videos into target text
concurrently. SimulSLT is composed of a text decoder, a boundary predictor, and
a masked encoder. We 1) use the wait-k strategy for simultaneous translation.
2) design a novel boundary predictor based on the integrate-and-fire module to
output the gloss boundary, which is used to model the correspondence between
the sign language video and the gloss. 3) propose an innovative re-encode
method to help the model obtain more abundant contextual information, which
allows the existing video features to interact fully. The experimental results
conducted on the RWTH-PHOENIX-Weather 2014T dataset show that SimulSLT achieves
BLEU scores that exceed the latest end-to-end non-simultaneous sign language
translation model while maintaining low latency, which proves the effectiveness
of our method.
- Abstract(参考訳): 近年,社会的な意義の深い技術としての手話翻訳が研究者の興味を惹きつけている。
しかし、既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要があるため、推論のレイテンシが高く、実際のシナリオではアプリケーションを制限している。
そこで本研究では,手話動画をテキストに同時変換可能な,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTはテキストデコーダ、境界予測器、マスク付きエンコーダで構成される。
私たち
1) 同時翻訳にwait-k戦略を使用する。
2) 信号言語ビデオと光沢の対応をモデル化するために用いられる光沢境界を出力するために, 統合・消火モジュールに基づく新しい境界予測器を設計する。
3) モデルがより豊富な文脈情報を得るのに役立つ革新的な再符号化手法を提案する。
rwth-phoenix-weather 2014tデータセットで行った実験の結果、simulsltは低レイテンシを維持しながら最新のエンドツーエンドの非同種手話翻訳モデルを超えるbleuスコアを達成しており、この手法の有効性が証明された。
関連論文リスト
- Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing [21.183453511034767]
本稿では,事前学習された大言語モデル(LLM),データ拡張,ラベルの平滑化損失関数を活用することで,いくつかの進歩を提案する。
提案手法は,Em Gloss2Text翻訳における最先端性能を上回る。
論文 参考訳(メタデータ) (2024-07-01T15:46:45Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Unsupervised Sign Language Translation and Generation [72.01216288379072]
教師なし手話翻訳・生成ネットワーク(USLNet)を導入する。
USLNetは、並列手話データなしで、豊富な単一モダリティ(テキストとビデオ)データから学習する。
可変長テキストとビデオシーケンスの整合性の問題に対処するスライディングウインドウ手法を提案する。
論文 参考訳(メタデータ) (2024-02-12T15:39:05Z) - Is context all you need? Scaling Neural Sign Language Translation to
Large Domains of Discourse [34.70927441846784]
手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,翻訳タスクを人間と同じようにコンテキスト対応で処理する,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
論文 参考訳(メタデータ) (2023-08-18T15:27:22Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - SLTUNET: A Simple Unified Model for Sign Language Translation [40.93099095994472]
複数のサイン・トゥ・グロス、グロス・トゥ・テキストおよびサイン・トゥ・テキスト翻訳タスクをサポートするために設計された単純な統合ニューラルモデルを提案する。
様々なタスクを共同でモデリングすることで、SLTUNETは、モダリティギャップを狭めるのに役立つクロスタスク関連性を探索することができる。
実験では, ENIX-2014T と CSL-Daily において, SLTUNET が競争力, 最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2023-05-02T20:41:59Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。