論文の概要: Clean Text and Full-Body Transformer: Microsoft's Submission to the
WMT22 Shared Task on Sign Language Translation
- arxiv url: http://arxiv.org/abs/2210.13326v1
- Date: Mon, 24 Oct 2022 15:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:55:41.803194
- Title: Clean Text and Full-Body Transformer: Microsoft's Submission to the
WMT22 Shared Task on Sign Language Translation
- Title(参考訳): クリーンテキストとフルボディトランス: Microsoft による WMT22 への提出による手話翻訳作業
- Authors: Subhadeep Dey, Abhilash Pal, Cyrine Chaabani, Oscar Koller
- Abstract要約: この記事では、MicrosoftがWMT 2022で手話翻訳に関する最初の共有タスクを提出したことを述べる。
この課題は、スイスドイツ語の手話の言語翻訳に手話を扱うことである。
データは実際のブロードキャストニュースから収集され、ネイティブな署名や長いビデオのシナリオをカバーしている。
- 参考スコア(独自算出の注目度): 11.412720572948086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes Microsoft's submission to the first shared task on sign
language translation at WMT 2022, a public competition tackling sign language
to spoken language translation for Swiss German sign language. The task is very
challenging due to data scarcity and an unprecedented vocabulary size of more
than 20k words on the target side. Moreover, the data is taken from real
broadcast news, includes native signing and covers scenarios of long videos.
Motivated by recent advances in action recognition, we incorporate full body
information by extracting features from a pre-trained I3D model and applying a
standard transformer network. The accuracy of the system is further improved by
applying careful data cleaning on the target text. We obtain BLEU scores of 0.6
and 0.78 on the test and dev set respectively, which is the best score among
the participants of the shared task. Also in the human evaluation the
submission reaches the first place. The BLEU score is further improved to 1.08
on the dev set by applying features extracted from a lip reading model.
- Abstract(参考訳): 本稿では,スイスのドイツ語手話用音声言語への手話翻訳に取り組む公共の競争である wmt 2022 において,手話翻訳に関するmicrosoft の最初の共有タスクへの提案について述べる。
データ不足と、ターゲット側で20万語を超える前例のない語彙サイズのため、このタスクは非常に難しい。
さらに、データは実際の放送ニュースから収集され、ネイティブな署名や長いビデオのシナリオをカバーしている。
近年の行動認識の進歩により,事前学習したI3Dモデルから特徴を抽出し,標準変圧器ネットワークを適用し,全身情報を組み込んだ。
対象テキストに注意深いデータクリーニングを適用することにより、システムの精度をさらに向上する。
テストセットと開発セットでそれぞれ0.6と0.78のbleuスコアを取得し,共有タスクの参加者の中で最高のスコアを得た。
また、人間の評価では、応募が第一位に達する。
BLEUスコアは、唇読解モデルから抽出した特徴を適用することにより、開発セットの1.08にさらに改善される。
関連論文リスト
- EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Is context all you need? Scaling Neural Sign Language Translation to
Large Domains of Discourse [34.70927441846784]
手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,翻訳タスクを人間と同じようにコンテキスト対応で処理する,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
論文 参考訳(メタデータ) (2023-08-18T15:27:22Z) - A two-way translation system of Chinese sign language based on computer
vision [0.0]
TSMモジュールは、中国の大規模な連続手話データセットのための軽量ニューラルネットワークモデルに追加される。
また,Bert-Base- Chineseモデルの改良により,中国語の文を単語に分割し,自然語順を規則手話順にマッピングする。
最後に,対応する単語ビデオを用いて文ビデオを生成し,テキスト-署名言語翻訳の機能を実現する。
論文 参考訳(メタデータ) (2023-06-03T16:00:57Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。