論文の概要: Low-Resource Machine Translation for Low-Resource Languages: Leveraging
Comparable Data, Code-Switching and Compute Resources
- arxiv url: http://arxiv.org/abs/2103.13272v1
- Date: Wed, 24 Mar 2021 15:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:07:05.318449
- Title: Low-Resource Machine Translation for Low-Resource Languages: Leveraging
Comparable Data, Code-Switching and Compute Resources
- Title(参考訳): 低リソース言語のための低リソース機械翻訳:同等のデータ、コードスイッチ、計算リソースを活用する
- Authors: Garry Kuwanto, Afra Feyza Aky\"urek, Isidora Chara Tourni, Siyang Li,
Derry Wijaya
- Abstract要約: 我々は,真の低資源言語に対する教師なしニューラルマシン翻訳(nmt)の実証研究を行っている。
バイリンガル辞書を用いた類似のデータマイニングと、モデルのトレーニングに控えめな計算リソースを追加することで、パフォーマンスが大幅に向上することを示す。
私たちの仕事は、低リソースNMTにおける異なる控えめな計算資源の影響を定量的に示す最初のものです。
- 参考スコア(独自算出の注目度): 4.119597443825115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We conduct an empirical study of unsupervised neural machine translation
(NMT) for truly low resource languages, exploring the case when both parallel
training data and compute resource are lacking, reflecting the reality of most
of the world's languages and the researchers working on these languages. We
propose a simple and scalable method to improve unsupervised NMT, showing how
adding comparable data mined using a bilingual dictionary along with modest
additional compute resource to train the model can significantly improve its
performance. We also demonstrate how the use of the dictionary to code-switch
monolingual data to create more comparable data can further improve
performance. With this weak supervision, our best method achieves BLEU scores
that improve over supervised results for English$\rightarrow$Gujarati (+18.88),
English$\rightarrow$Kazakh (+5.84), and English$\rightarrow$Somali (+1.16),
showing the promise of weakly-supervised NMT for many low resource languages
with modest compute resource in the world. To the best of our knowledge, our
work is the first to quantitatively showcase the impact of different modest
compute resource in low resource NMT.
- Abstract(参考訳): 我々は、真の低リソース言語のための教師なしニューラルマシン翻訳(nmt)に関する実証研究を行い、並列トレーニングデータと計算リソースが欠如している場合を考察し、世界のほとんどの言語とこれらの言語に取り組んでいる研究者の現実を反映した。
教師なしNMTを改善するための単純でスケーラブルな手法を提案し、バイリンガル辞書を用いてマイニングされた同等のデータと、モデルを訓練するための控えめな計算資源をどのように追加するかを示す。
また, 辞書を用いて単言語データをコードスイッチし, より同等のデータを生成することにより, 性能がさらに向上することを示す。
この弱い監督によって、我々の最良の方法はBLEUスコアを達成し、英語$\rightarrow$Gujarati (+18.88), English$\rightarrow$Kazakh (+5.84), English$\rightarrow$Somali (+1.16) の教師付き結果よりも優れたBLEUスコアを得る。
我々の知る限り、我々の研究は、低リソースNMTにおける様々な控えめな計算リソースの影響を定量的に示す最初のものである。
関連論文リスト
- UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages [2.66269503676104]
大規模言語モデル(LLM)は低リソース言語での性能が低い。
低リソース言語のためのテキストデータを効率的に収集する手法を提案する。
我々のアプローチであるUnifiedCrawlは、最小限の計算リソースを使用して共通のクローをフィルタし、抽出する。
論文 参考訳(メタデータ) (2024-11-21T17:41:08Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - MetaXLR -- Mixed Language Meta Representation Transformation for
Low-resource Cross-lingual Learning based on Multi-Armed Bandit [0.0]
データ駆動方式で選択した複数のソース言語を利用する拡張アプローチを提案する。
我々は,同じ量のデータを使用しながら,非常に低リソース言語に対するNERタスクにおける技術結果の状態を達成した。
論文 参考訳(メタデータ) (2023-05-31T18:22:33Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Adapting to the Low-Resource Double-Bind: Investigating Low-Compute
Methods on Low-Resource African Languages [0.6833698896122186]
アフリカの言語のデータ不足問題に追加された高い計算資源へのアクセス。
低リソースのアフリカNLPに対して,言語アダプタをコスト効率の良いアプローチとして評価する。
これにより、言語アダプタの能力に関するさらなる実験と探索の扉が開ける。
論文 参考訳(メタデータ) (2023-03-29T19:25:43Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。