論文の概要: Multi-channel Transformers for Multi-articulatory Sign Language
Translation
- arxiv url: http://arxiv.org/abs/2009.00299v1
- Date: Tue, 1 Sep 2020 09:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:18:33.602143
- Title: Multi-channel Transformers for Multi-articulatory Sign Language
Translation
- Title(参考訳): 多言語手話翻訳のための多チャンネルトランスフォーマー
- Authors: Necati Cihan Camgoz, Oscar Koller, Simon Hadfield, Richard Bowden
- Abstract要約: 本稿では,多調な手話翻訳課題に取り組み,新しいマルチチャネルトランスフォーマアーキテクチャを提案する。
提案アーキテクチャにより、異なる手話調節間の文脈内関係をトランスフォーマネットワーク内でモデル化することができる。
- 参考スコア(独自算出の注目度): 59.38247587308604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign languages use multiple asynchronous information channels (articulators),
not just the hands but also the face and body, which computational approaches
often ignore. In this paper we tackle the multi-articulatory sign language
translation task and propose a novel multi-channel transformer architecture.
The proposed architecture allows both the inter and intra contextual
relationships between different sign articulators to be modelled within the
transformer network itself, while also maintaining channel specific
information. We evaluate our approach on the RWTH-PHOENIX-Weather-2014T dataset
and report competitive translation performance. Importantly, we overcome the
reliance on gloss annotations which underpin other state-of-the-art approaches,
thereby removing future need for expensive curated datasets.
- Abstract(参考訳): 手話言語は複数の非同期情報チャネル(articulator)を使用し、手だけでなく顔や体も使う。
本稿では,多調な手話翻訳課題に取り組み,新しいマルチチャネルトランスフォーマーアーキテクチャを提案する。
提案するアーキテクチャにより、異なる符号調音器間のコンテキスト間の関係をトランスフォーマーネットワーク内でモデル化できると同時に、チャネル固有の情報も保持できる。
我々は、RWTH-PHOENIX-Weather-2014Tデータセットに対するアプローチを評価し、競合翻訳性能を報告する。
重要なことは、他の最先端アプローチの基盤となる光沢アノテーションへの依存を克服し、それによって、高価なキュレートされたデータセットの将来的なニーズを取り除くことである。
関連論文リスト
- Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Viewing Knowledge Transfer in Multilingual Machine Translation Through a
Representational Lens [15.283483438956264]
本稿では,言語間の表現的類似度を測定するRepresentational Transfer potential (RTP)を紹介する。
RTPは正と負の両方の転送(干渉)を計測できることを示し、RTPは翻訳品質の変化と強く相関していることを示した。
我々は,言語間で表現をより不変にするための補助的類似性損失を用いた新しい学習手法を開発した。
論文 参考訳(メタデータ) (2023-05-19T09:36:48Z) - Data-Efficient Cross-Lingual Transfer with Language-Specific Subnetworks [16.8212280804151]
大規模多言語言語モデルは通常、そのパラメータをすべての言語で共有し、言語間タスク転送を可能にする。
本稿では,言語間パラメータ共有を制御する言語特化工法を提案する。
我々は,メタラーニング(メタラーニング,メタラーニング,メタラーニング,メタラーニング)と組み合わせて,言語間移動を改善する手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T19:23:33Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Progressive Transformers for End-to-End Sign Language Production [43.45785951443149]
自動手話生成(SLP)の目的は、音声言語を手話ビデオの連続ストリームに変換することである。
主に孤立したSLPに関する以前の研究は、完全な符号列の連続領域により適したアーキテクチャの必要性を示している。
本稿では,手話を表す音声文から連続的な3Dスケルトンへの変換が可能な新しいアーキテクチャであるProgressive Transformersを提案する。
論文 参考訳(メタデータ) (2020-04-30T15:20:25Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。