論文の概要: JWSign: A Highly Multilingual Corpus of Bible Translations for more
Diversity in Sign Language Processing
- arxiv url: http://arxiv.org/abs/2311.10174v1
- Date: Thu, 16 Nov 2023 20:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 15:40:13.628661
- Title: JWSign: A Highly Multilingual Corpus of Bible Translations for more
Diversity in Sign Language Processing
- Title(参考訳): JWSign: 手話処理の多様性向上を目的とした多言語翻訳コーパス
- Authors: Shester Gueuwou, Sophie Siake, Colin Leong and Mathias M\"uller
- Abstract要約: JWSignデータセットは98の手話言語で2,530時間の聖書翻訳で構成されている。
我々は、署名された言語や話し言葉の類型的関連性を考慮して、多言語システムを訓練する。
- 参考スコア(独自算出の注目度): 2.9936326613596775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in sign language processing have been hindered by a lack of
sufficient data, impeding progress in recognition, translation, and production
tasks. The absence of comprehensive sign language datasets across the world's
sign languages has widened the gap in this field, resulting in a few sign
languages being studied more than others, making this research area extremely
skewed mostly towards sign languages from high-income countries. In this work
we introduce a new large and highly multilingual dataset for sign language
translation: JWSign. The dataset consists of 2,530 hours of Bible translations
in 98 sign languages, featuring more than 1,500 individual signers. On this
dataset, we report neural machine translation experiments. Apart from bilingual
baseline systems, we also train multilingual systems, including some that take
into account the typological relatedness of signed or spoken languages. Our
experiments highlight that multilingual systems are superior to bilingual
baselines, and that in higher-resource scenarios, clustering language pairs
that are related improves translation quality.
- Abstract(参考訳): 手話処理の進歩は、十分なデータ不足によって妨げられ、認識、翻訳、生産作業の進捗を妨げている。
世界の手話言語全体にわたる包括的な手話データセットの欠如は、この分野のギャップを拡大し、いくつかの手話言語が他よりも研究され、この研究領域は、高所得国の手話に大きく偏っている。
本稿では,手話翻訳のための新しい大規模多言語データセット「jwsign」を提案する。
このデータセットは98の手話言語で2,530時間の聖書翻訳で構成され、1500人以上の署名者が参加している。
本データセットでは,ニューラルマシン翻訳実験について報告する。
バイリンガルベースラインシステムとは別に、署名された言語や話し言葉の類型的関連性を考慮した多言語システムも訓練している。
実験の結果,多言語システムはバイリンガルベースラインよりも優れており,高リソースのシナリオでは関連するクラスタリング言語ペアが翻訳品質を向上させることがわかった。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - ISLTranslate: Dataset for Translating Indian Sign Language [4.836352379142503]
In this paper introduced ISLTranslate, a translation dataset for continuous Indian Sign Language (ISL) with 31k ISL- English sentence/phrase pairs。
私たちの知る限りでは、これは連続したインド手話のための翻訳データセットとしては最大のものです。
論文 参考訳(メタデータ) (2023-07-11T17:06:52Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Machine Translation between Spoken Languages and Signed Languages
Represented in SignWriting [5.17427644066658]
ニューラルファクタリングMTのアイデアを活用し,SignWritingを解析,分解,復号化,評価するための新しい手法を提案する。
音声翻訳の改良に使用される一般的なMT技術が手話翻訳の性能にも同様に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2022-10-11T12:28:06Z) - How Do Multilingual Encoders Learn Cross-lingual Representation? [8.409283426564977]
言語間転送は、他言語からの転送によって、トレーニングデータをほとんど、あるいは全く持たない言語に恩恵を与える。
この論文はまず、様々なタスクにおける先行技術と比較して、驚くべき言語間効果を示す。
また、多言語エンコーダに異なる言語間信号を注入する方法や、これらのモデルを用いた言語間転送の最適化挙動についても検討する。
論文 参考訳(メタデータ) (2022-07-12T17:57:05Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Alternative Input Signals Ease Transfer in Multilingual Machine
Translation [21.088829932208945]
我々は、異なる筆記システムを統合する代替信号でトレーニングデータを増強することで、転送の抑制に取り組む。
我々はこれらのシグナルを、言語が共通の特徴を共有している2つの言語族であるインディク語とテュルク語でテストする。
論文 参考訳(メタデータ) (2021-10-15T01:56:46Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - MuRIL: Multilingual Representations for Indian Languages [3.529875637780551]
インドは、1369の合理化された言語と方言が全国で話されている多言語社会です。
それにもかかわらず、今日の最先端の多言語システムは、インド(IN)言語で最適に動作します。
IN言語に特化した多言語言語モデルであるMuRILを提案します。
論文 参考訳(メタデータ) (2021-03-19T11:06:37Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。