論文の概要: Is context all you need? Scaling Neural Sign Language Translation to
Large Domains of Discourse
- arxiv url: http://arxiv.org/abs/2308.09622v1
- Date: Fri, 18 Aug 2023 15:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:37:02.612891
- Title: Is context all you need? Scaling Neural Sign Language Translation to
Large Domains of Discourse
- Title(参考訳): コンテキストは必要なだけですか?
大規模会話領域へのニューラル手話翻訳のスケーリング
- Authors: Ozge Mercanoglu Sincan, Necati Cihan Camgoz, Richard Bowden
- Abstract要約: 手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,翻訳タスクを人間と同じようにコンテキスト対応で処理する,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
- 参考スコア(独自算出の注目度): 34.70927441846784
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign Language Translation (SLT) is a challenging task that aims to generate
spoken language sentences from sign language videos, both of which have
different grammar and word/gloss order. From a Neural Machine Translation (NMT)
perspective, the straightforward way of training translation models is to use
sign language phrase-spoken language sentence pairs. However, human
interpreters heavily rely on the context to understand the conveyed
information, especially for sign language interpretation, where the vocabulary
size may be significantly smaller than their spoken language equivalent.
Taking direct inspiration from how humans translate, we propose a novel
multi-modal transformer architecture that tackles the translation task in a
context-aware manner, as a human would. We use the context from previous
sequences and confident predictions to disambiguate weaker visual cues. To
achieve this we use complementary transformer encoders, namely: (1) A Video
Encoder, that captures the low-level video features at the frame-level, (2) A
Spotting Encoder, that models the recognized sign glosses in the video, and (3)
A Context Encoder, which captures the context of the preceding sign sequences.
We combine the information coming from these encoders in a final transformer
decoder to generate spoken language translations.
We evaluate our approach on the recently published large-scale BOBSL dataset,
which contains ~1.2M sequences, and on the SRF dataset, which was part of the
WMT-SLT 2022 challenge. We report significant improvements on state-of-the-art
translation performance using contextual information, nearly doubling the
reported BLEU-4 scores of baseline approaches.
- Abstract(参考訳): 手話翻訳(英: sign language translation, slt)は、手話ビデオから話し言葉文を生成することを目的とした課題である。
ニューラル機械翻訳(NMT)の観点から、翻訳モデルを訓練する簡単な方法は、手話句の文対を使用することである。
しかし、人間のインタプリタは、伝達された情報を理解するために文脈に大きく依存しており、特に手話解釈では、語彙のサイズが話し言葉と同等のものよりもかなり小さい可能性がある。
人間の翻訳の仕方から直接的なインスピレーションを得て,人間と同じように文脈対応で翻訳作業に取り組む,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
我々は、以前のシーケンスからのコンテキストと自信のある予測を使用して、より弱い視覚手がかりを曖昧にします。
これを実現するために、(1)フレームレベルで低レベルな映像特徴をキャプチャするビデオエンコーダ、(2)ビデオ中の認識された符号光沢をモデル化するスポットエンコーダ、(3)先行する符号シーケンスのコンテキストをキャプチャするコンテキストエンコーダという補完的なトランスコーダを用いる。
これらのエンコーダから得られる情報を最終変換器デコーダに組み合わせて音声言語翻訳を生成する。
我々は、最近発表された1.2mのシーケンスを含む大規模bobslデータセットと、wmt-slt 2022チャレンジの一部であるsrfデータセットに対するアプローチを評価した。
本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
関連論文リスト
- Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。
本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。
我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-07T10:00:38Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。