論文の概要: Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation
- arxiv url: http://arxiv.org/abs/2003.13830v1
- Date: Mon, 30 Mar 2020 21:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 06:23:32.424947
- Title: Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation
- Title(参考訳): 手話トランスフォーマー:エンドツーエンド手話認識と翻訳
- Authors: Necati Cihan Camgoz, Oscar Koller, Simon Hadfield, Richard Bowden
- Abstract要約: 本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
- 参考スコア(独自算出の注目度): 59.38247587308604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work on Sign Language Translation has shown that having a mid-level
sign gloss representation (effectively recognizing the individual signs)
improves the translation performance drastically. In fact, the current
state-of-the-art in translation requires gloss level tokenization in order to
work. We introduce a novel transformer based architecture that jointly learns
Continuous Sign Language Recognition and Translation while being trainable in
an end-to-end manner. This is achieved by using a Connectionist Temporal
Classification (CTC) loss to bind the recognition and translation problems into
a single unified architecture. This joint approach does not require any
ground-truth timing information, simultaneously solving two co-dependant
sequence-to-sequence learning problems and leads to significant performance
gains.
We evaluate the recognition and translation performances of our approaches on
the challenging RWTH-PHOENIX-Weather-2014T (PHOENIX14T) dataset. We report
state-of-the-art sign language recognition and translation results achieved by
our Sign Language Transformers. Our translation networks outperform both sign
video to spoken language and gloss to spoken language translation models, in
some cases more than doubling the performance (9.58 vs. 21.80 BLEU-4 Score). We
also share new baseline translation results using transformer networks for
several other text-to-text sign language translation tasks.
- Abstract(参考訳): サイン言語翻訳に関する以前の研究は、中級の記号グロス表現(事実上個々の記号を認識する)を持つことで、翻訳性能が劇的に向上することを示した。
実際、翻訳における現在の最先端は、機能するために用語レベルのトークン化を必要とする。
エンドツーエンドでトレーニングしながら,連続手話認識と翻訳を共同で学習する,トランスフォーマーに基づく新しいアーキテクチャを提案する。
これはConnectionist Temporal Classification (CTC) の損失を利用して認識と翻訳の問題を単一の統一アーキテクチャに結合することで実現される。
このジョイントアプローチでは,2つの共依存シーケンス・ツー・シーケンスの学習問題を同時に解決し,大幅な性能向上をもたらす。
RWTH-PHOENIX-Weather-2014T(PHOENIX14T)データセットの認識と翻訳性能の評価を行った。
本稿では,手話変換器による手話認識と翻訳結果について報告する。
我々の翻訳ネットワークは、ビデオから音声言語への変換と、音声翻訳モデルへの光沢の両方を上回り、性能を2倍にするケースもある(9.58 vs. 21.80 BLEU-4 スコア)。
また,他のテキスト間手話翻訳タスクに対して,トランスフォーマーネットワークを用いた新しいベースライン翻訳結果を共有する。
関連論文リスト
- From Rule-Based Models to Deep Learning Transformers Architectures for Natural Language Processing and Sign Language Translation Systems: Survey, Taxonomy and Performance Evaluation [0.0]
効率的なサイン駆動型統合エンドツーエンド翻訳システムの必要性が高まっている。
本稿では,リアルタイムのQOL(Quality-of-Service sign language)ma-chine翻訳システムの要件について述べる。
論文 参考訳(メタデータ) (2024-08-27T07:11:45Z) - Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。
本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。
我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-07T10:00:38Z) - Is context all you need? Scaling Neural Sign Language Translation to
Large Domains of Discourse [34.70927441846784]
手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,翻訳タスクを人間と同じようにコンテキスト対応で処理する,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
論文 参考訳(メタデータ) (2023-08-18T15:27:22Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。