論文の概要: Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction
- arxiv url: http://arxiv.org/abs/2306.06804v1
- Date: Sun, 11 Jun 2023 23:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:25:30.724168
- Title: Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction
- Title(参考訳): アメリカ先住民言語のためのニューラルマシン翻訳:序論
- Authors: Manuel Mager, Rajat Bhatnagar, Graham Neubig, Ngoc Thang Vu, Katharina
Kann
- Abstract要約: アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
- 参考スコア(独自算出の注目度): 102.13536517783837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural models have drastically advanced state of the art for machine
translation (MT) between high-resource languages. Traditionally, these models
rely on large amounts of training data, but many language pairs lack these
resources. However, an important part of the languages in the world do not have
this amount of data. Most languages from the Americas are among them, having a
limited amount of parallel and monolingual data, if any. Here, we present an
introduction to the interested reader to the basic challenges, concepts, and
techniques that involve the creation of MT systems for these languages.
Finally, we discuss the recent advances and findings and open questions,
product of an increased interest of the NLP community in these languages.
- Abstract(参考訳): ニューラルモデルは、高リソース言語間の機械翻訳技術(mt)の飛躍的な進歩を遂げた。
伝統的に、これらのモデルは大量のトレーニングデータに依存しているが、多くの言語ペアはこれらのリソースを欠いている。
しかし、世界の言語の重要な部分は、この量のデータを持っていません。
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
本稿では,これらの言語のためのMTシステムの構築に関わる基本的な課題,概念,技術について,興味ある読者に紹介する。
最後に,これらの言語におけるNLPコミュニティの関心が高まり,最近の進歩,発見,オープンな疑問について論じる。
関連論文リスト
- A multilingual training strategy for low resource Text to Speech [5.109810774427171]
ソーシャルメディアからのデータを、小さなTSデータセット構築に利用することができるか、また、言語間移動学習がこの種のデータに有効かどうかを検討する。
そこで本稿では,対象とする低リソース言語に対するTSモデルをトレーニングするために,外国語からのデータをどのように選択し,プールするかを検討する。
以上の結果から,多言語事前学習は単言語事前学習よりも,生成した音声の明瞭さと自然性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-09-02T12:53:01Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Improving Neural Machine Translation of Indigenous Languages with
Multilingual Transfer Learning [7.893831644671974]
本稿では,バイリンガルおよびマルチリンガル事前訓練されたMTモデルを用いて,スペイン語から10の南米先住民言語に翻訳する手法について述べる。
私たちのモデルは、新しいSOTAを考慮に入れている10の言語ペアのうち5つに設定し、これらの5つのペアのうちの1つのパフォーマンスを倍増させました。
論文 参考訳(メタデータ) (2022-05-14T07:30:03Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。