Fugu-MT 論文翻訳(概要): Low-Resource Machine Translation for Low-Resource Languages: Leveraging Comparable Data, Code-Switching and Compute Resources

論文の概要: Low-Resource Machine Translation for Low-Resource Languages: Leveraging Comparable Data, Code-Switching and Compute Resources

arxiv url: http://arxiv.org/abs/2103.13272v1
Date: Wed, 24 Mar 2021 15:40:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-25 14:07:05.318449
Title: Low-Resource Machine Translation for Low-Resource Languages: Leveraging Comparable Data, Code-Switching and Compute Resources
Title（参考訳）: 低リソース言語のための低リソース機械翻訳:同等のデータ、コードスイッチ、計算リソースを活用する
Authors: Garry Kuwanto, Afra Feyza Aky\"urek, Isidora Chara Tourni, Siyang Li, Derry Wijaya
Abstract要約: 我々は,真の低資源言語に対する教師なしニューラルマシン翻訳(nmt)の実証研究を行っている。バイリンガル辞書を用いた類似のデータマイニングと、モデルのトレーニングに控えめな計算リソースを追加することで、パフォーマンスが大幅に向上することを示す。私たちの仕事は、低リソースNMTにおける異なる控えめな計算資源の影響を定量的に示す最初のものです。
参考スコア（独自算出の注目度）: 4.119597443825115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We conduct an empirical study of unsupervised neural machine translation (NMT) for truly low resource languages, exploring the case when both parallel training data and compute resource are lacking, reflecting the reality of most of the world's languages and the researchers working on these languages. We propose a simple and scalable method to improve unsupervised NMT, showing how adding comparable data mined using a bilingual dictionary along with modest additional compute resource to train the model can significantly improve its performance. We also demonstrate how the use of the dictionary to code-switch monolingual data to create more comparable data can further improve performance. With this weak supervision, our best method achieves BLEU scores that improve over supervised results for English$\rightarrow$Gujarati (+18.88), English$\rightarrow$Kazakh (+5.84), and English$\rightarrow$Somali (+1.16), showing the promise of weakly-supervised NMT for many low resource languages with modest compute resource in the world. To the best of our knowledge, our work is the first to quantitatively showcase the impact of different modest compute resource in low resource NMT.
Abstract（参考訳）: 我々は、真の低リソース言語のための教師なしニューラルマシン翻訳(nmt)に関する実証研究を行い、並列トレーニングデータと計算リソースが欠如している場合を考察し、世界のほとんどの言語とこれらの言語に取り組んでいる研究者の現実を反映した。教師なしNMTを改善するための単純でスケーラブルな手法を提案し、バイリンガル辞書を用いてマイニングされた同等のデータと、モデルを訓練するための控えめな計算資源をどのように追加するかを示す。また, 辞書を用いて単言語データをコードスイッチし, より同等のデータを生成することにより, 性能がさらに向上することを示す。この弱い監督によって、我々の最良の方法はBLEUスコアを達成し、英語$\rightarrow$Gujarati (+18.88), English$\rightarrow$Kazakh (+5.84), English$\rightarrow$Somali (+1.16) の教師付き結果よりも優れたBLEUスコアを得る。我々の知る限り、我々の研究は、低リソースNMTにおける様々な控えめな計算リソースの影響を定量的に示す最初のものである。

関連論文リスト

Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T14:53:49Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-12-13T16:13:35Z)
UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages [2.66269503676104]
大規模言語モデル(LLM)は低リソース言語での性能が低い。低リソース言語のためのテキストデータを効率的に収集する手法を提案する。我々のアプローチであるUnifiedCrawlは、最小限の計算リソースを使用して共通のクローをフィルタし、抽出する。
論文参考訳（メタデータ） (2024-11-21T17:41:08Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文参考訳（メタデータ） (2024-02-19T15:07:32Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
MetaXLR -- Mixed Language Meta Representation Transformation for Low-resource Cross-lingual Learning based on Multi-Armed Bandit [0.0]
データ駆動方式で選択した複数のソース言語を利用する拡張アプローチを提案する。我々は,同じ量のデータを使用しながら,非常に低リソース言語に対するNERタスクにおける技術結果の状態を達成した。
論文参考訳（メタデータ） (2023-05-31T18:22:33Z)
Semi-supervised Neural Machine Translation with Consistency Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文参考訳（メタデータ） (2023-04-02T15:24:08Z)
Adapting to the Low-Resource Double-Bind: Investigating Low-Compute Methods on Low-Resource African Languages [0.6833698896122186]
アフリカの言語のデータ不足問題に追加された高い計算資源へのアクセス。低リソースのアフリカNLPに対して,言語アダプタをコスト効率の良いアプローチとして評価する。これにより、言語アダプタの能力に関するさらなる実験と探索の扉が開ける。
論文参考訳（メタデータ） (2023-03-29T19:25:43Z)
Learning Translation Quality Evaluation on Low Resource Languages from Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文参考訳（メタデータ） (2023-02-07T14:35:35Z)
Cost-Effective Training in Low-Resource Neural Machine Translation [12.968557512440759]
そこで本研究では,少数の注釈文と辞書エントリを用いたNMTモデルの性能向上のための費用対効果トレーニング手法を提案する。これらの知識源の組み合わせによるモデルの改善は、AL戦略の活用と低リソース条件での利得向上に不可欠であることを示す。
論文参考訳（メタデータ） (2022-01-14T22:57:14Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文参考訳（メタデータ） (2020-10-07T03:57:54Z)
Leveraging Monolingual Data with Self-Supervision for Multilingual Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。自己監督は多言語モデルのゼロショット翻訳品質を改善する。並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文参考訳（メタデータ） (2020-05-11T00:20:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。