論文の概要: Low-Resource Machine Translation for Low-Resource Languages: Leveraging
Comparable Data, Code-Switching and Compute Resources
- arxiv url: http://arxiv.org/abs/2103.13272v1
- Date: Wed, 24 Mar 2021 15:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:07:05.318449
- Title: Low-Resource Machine Translation for Low-Resource Languages: Leveraging
Comparable Data, Code-Switching and Compute Resources
- Title(参考訳): 低リソース言語のための低リソース機械翻訳:同等のデータ、コードスイッチ、計算リソースを活用する
- Authors: Garry Kuwanto, Afra Feyza Aky\"urek, Isidora Chara Tourni, Siyang Li,
Derry Wijaya
- Abstract要約: 我々は,真の低資源言語に対する教師なしニューラルマシン翻訳(nmt)の実証研究を行っている。
バイリンガル辞書を用いた類似のデータマイニングと、モデルのトレーニングに控えめな計算リソースを追加することで、パフォーマンスが大幅に向上することを示す。
私たちの仕事は、低リソースNMTにおける異なる控えめな計算資源の影響を定量的に示す最初のものです。
- 参考スコア(独自算出の注目度): 4.119597443825115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We conduct an empirical study of unsupervised neural machine translation
(NMT) for truly low resource languages, exploring the case when both parallel
training data and compute resource are lacking, reflecting the reality of most
of the world's languages and the researchers working on these languages. We
propose a simple and scalable method to improve unsupervised NMT, showing how
adding comparable data mined using a bilingual dictionary along with modest
additional compute resource to train the model can significantly improve its
performance. We also demonstrate how the use of the dictionary to code-switch
monolingual data to create more comparable data can further improve
performance. With this weak supervision, our best method achieves BLEU scores
that improve over supervised results for English$\rightarrow$Gujarati (+18.88),
English$\rightarrow$Kazakh (+5.84), and English$\rightarrow$Somali (+1.16),
showing the promise of weakly-supervised NMT for many low resource languages
with modest compute resource in the world. To the best of our knowledge, our
work is the first to quantitatively showcase the impact of different modest
compute resource in low resource NMT.
- Abstract(参考訳): 我々は、真の低リソース言語のための教師なしニューラルマシン翻訳(nmt)に関する実証研究を行い、並列トレーニングデータと計算リソースが欠如している場合を考察し、世界のほとんどの言語とこれらの言語に取り組んでいる研究者の現実を反映した。
教師なしNMTを改善するための単純でスケーラブルな手法を提案し、バイリンガル辞書を用いてマイニングされた同等のデータと、モデルを訓練するための控えめな計算資源をどのように追加するかを示す。
また, 辞書を用いて単言語データをコードスイッチし, より同等のデータを生成することにより, 性能がさらに向上することを示す。
この弱い監督によって、我々の最良の方法はBLEUスコアを達成し、英語$\rightarrow$Gujarati (+18.88), English$\rightarrow$Kazakh (+5.84), English$\rightarrow$Somali (+1.16) の教師付き結果よりも優れたBLEUスコアを得る。
我々の知る限り、我々の研究は、低リソースNMTにおける様々な控えめな計算リソースの影響を定量的に示す最初のものである。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。
さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-12-13T16:13:35Z) - UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages [2.66269503676104]
大規模言語モデル(LLM)は低リソース言語での性能が低い。
低リソース言語のためのテキストデータを効率的に収集する手法を提案する。
我々のアプローチであるUnifiedCrawlは、最小限の計算リソースを使用して共通のクローをフィルタし、抽出する。
論文 参考訳(メタデータ) (2024-11-21T17:41:08Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - MetaXLR -- Mixed Language Meta Representation Transformation for
Low-resource Cross-lingual Learning based on Multi-Armed Bandit [0.0]
データ駆動方式で選択した複数のソース言語を利用する拡張アプローチを提案する。
我々は,同じ量のデータを使用しながら,非常に低リソース言語に対するNERタスクにおける技術結果の状態を達成した。
論文 参考訳(メタデータ) (2023-05-31T18:22:33Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Adapting to the Low-Resource Double-Bind: Investigating Low-Compute
Methods on Low-Resource African Languages [0.6833698896122186]
アフリカの言語のデータ不足問題に追加された高い計算資源へのアクセス。
低リソースのアフリカNLPに対して,言語アダプタをコスト効率の良いアプローチとして評価する。
これにより、言語アダプタの能力に関するさらなる実験と探索の扉が開ける。
論文 参考訳(メタデータ) (2023-03-29T19:25:43Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。