論文の概要: Massively Multilingual Text Translation For Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2401.16582v1
- Date: Mon, 29 Jan 2024 21:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 17:08:10.171065
- Title: Massively Multilingual Text Translation For Low-Resource Languages
- Title(参考訳): 低リソース言語のための多言語テキスト翻訳
- Authors: Zhong Zhou
- Abstract要約: 人道的な取り組みでは、ひどい低リソース言語への翻訳は、しばしば普遍的な翻訳エンジンを必要としない。
全ての言語に対する汎用的な翻訳エンジンは存在しないが、多言語で知られている制限付きテキストを新しい低リソース言語に翻訳することは可能かもしれない。
- 参考スコア(独自算出の注目度): 7.3595126380784235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translation into severely low-resource languages has both the cultural goal
of saving and reviving those languages and the humanitarian goal of assisting
the everyday needs of local communities that are accelerated by the recent
COVID-19 pandemic. In many humanitarian efforts, translation into severely
low-resource languages often does not require a universal translation engine,
but a dedicated text-specific translation engine. For example, healthcare
records, hygienic procedures, government communication, emergency procedures
and religious texts are all limited texts. While generic translation engines
for all languages do not exist, translation of multilingually known limited
texts into new, low-resource languages may be possible and reduce human
translation effort. We attempt to leverage translation resources from
rich-resource languages to efficiently produce best possible translation
quality for well known texts, which are available in multiple languages, in a
new, low-resource language. To reach this goal, we argue that in translating a
closed text into low-resource languages, generalization to out-of-domain texts
is not necessary, but generalization to new languages is. Performance gain
comes from massive source parallelism by careful choice of close-by language
families, style-consistent corpus-level paraphrases within the same language
and strategic adaptation of existing large pretrained multilingual models to
the domain first and then to the language. Such performance gain makes it
possible for machine translation systems to collaborate with human translators
to expedite the translation process into new, low-resource languages.
- Abstract(参考訳): 重度の低リソース言語への翻訳は、これらの言語を保存・復活するという文化的目標と、最近の新型コロナウイルスのパンデミックで加速している地域社会の日常的なニーズを支援するという人道的な目標の両方がある。
多くの人道的な取り組みにおいて、厳しい低リソース言語への翻訳は、しばしば普遍的な翻訳エンジンではなく、専用のテキスト固有の翻訳エンジンを必要とする。
例えば、医療記録、衛生処置、政府通信、緊急処置、宗教文書は全て制限されたテキストである。
全ての言語に対する汎用翻訳エンジンは存在しないが、多言語で知られている制限付きテキストを新しい低リソース言語に翻訳することは可能であり、人間の翻訳作業を減らすことができる。
我々は、リッチリソース言語からの翻訳資源を活用して、複数の言語で利用可能なよく知られたテキストの翻訳品質を、新しい低リソース言語で効率的に生成しようと試みる。
この目標を達成するために、クローズドテキストを低リソース言語に翻訳する際には、ドメイン外テキストへの一般化は不要である。
パフォーマンスの向上は、言語ファミリを慎重に選択すること、同じ言語内でのスタイル一貫性のコーパスレベルのパラフレーズ、そして既存の大規模事前訓練された多言語モデルのドメインへの戦略的適応によって生じる。
このような性能向上により、機械翻訳システムは人間の翻訳者と協調して、新しい低リソース言語への翻訳プロセスを高速化することができる。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Train Global, Tailor Local: Minimalist Multilingual Translation into
Endangered Languages [26.159803412486955]
人道的なシナリオでは、非常に低いリソース言語への翻訳は、しばしば普遍的な翻訳エンジンを必要としない。
我々は、多くのリッチリソース言語からの翻訳資源を活用して、最大限の翻訳品質を効率よく生成しようと試みている。
事前訓練済みの大規模多言語モデルをまずドメイン/テキストに適用し,次いでリソースの少ない言語に適応することが最善であることがわかった。
論文 参考訳(メタデータ) (2023-05-05T23:22:16Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。
資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-25T23:13:53Z) - Refining Low-Resource Unsupervised Translation by Language
Disentanglement of Multilingual Model [16.872474334479026]
本稿では,事前訓練された多言語UTTモデルから言語を切り離すための簡単な改良手法を提案する。
我々の手法は、ネパール語、シンハラ語、グジャラート語、ラトビア語、エストニア語、カザフ語への英語の完全な教師なし翻訳作業における芸術の状態を達成している。
論文 参考訳(メタデータ) (2022-05-31T05:14:50Z) - Adapting High-resource NMT Models to Translate Low-resource Related
Languages without Parallel Data [40.11208706647032]
並列データの不足は、低リソース言語向けの高品質機械翻訳システムのトレーニングにおいて大きな障害となる。
本研究では,この言語的重複を利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にする。
我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた手法である。
論文 参考訳(メタデータ) (2021-05-31T16:01:18Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。