論文の概要: Replicable Benchmarking of Neural Machine Translation (NMT) on
Low-Resource Local Languages in Indonesia
- arxiv url: http://arxiv.org/abs/2311.00998v1
- Date: Thu, 2 Nov 2023 05:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:37:58.688798
- Title: Replicable Benchmarking of Neural Machine Translation (NMT) on
Low-Resource Local Languages in Indonesia
- Title(参考訳): インドネシアの低リソースローカル言語におけるニューラルネットワーク翻訳(nmt)のreplicableベンチマーク
- Authors: Lucky Susanto, Ryandito Diandaru, Adila Krisnadhi, Ayu Purwarianti,
Derry Wijaya
- Abstract要約: 本研究は,インドネシアの4つの低リソースローカル言語(ジャワ語,スンダ語,ミナンカバウ語,バリンセ語)を対象としたNMTシステムの訓練を包括的に分析する。
我々の研究は、限られた計算資源とテキストデータにもかかわらず、いくつかのNMTシステムが競合性能を達成することを実証している。
- 参考スコア(独自算出の注目度): 4.634142034755327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural machine translation (NMT) for low-resource local languages in
Indonesia faces significant challenges, including the need for a representative
benchmark and limited data availability. This work addresses these challenges
by comprehensively analyzing training NMT systems for four low-resource local
languages in Indonesia: Javanese, Sundanese, Minangkabau, and Balinese. Our
study encompasses various training approaches, paradigms, data sizes, and a
preliminary study into using large language models for synthetic low-resource
languages parallel data generation. We reveal specific trends and insights into
practical strategies for low-resource language translation. Our research
demonstrates that despite limited computational resources and textual data,
several of our NMT systems achieve competitive performances, rivaling the
translation quality of zero-shot gpt-3.5-turbo. These findings significantly
advance NMT for low-resource languages, offering valuable guidance for
researchers in similar contexts.
- Abstract(参考訳): インドネシアの低リソースローカル言語のためのニューラルマシン翻訳(NMT)は、代表ベンチマークの必要性やデータ可用性の制限など、大きな課題に直面している。
本研究は,インドネシアの4つの低リソースローカル言語(ジャワ語,スンダ語,ミナンカバウ語,バリンセ語)を対象としたNMTシステムのトレーニングを包括的に分析することによって,これらの課題に対処する。
本研究は, 各種学習手法, パラダイム, データサイズ, および合成低リソース言語並列データ生成のための大規模言語モデルを用いた予備研究を含む。
低リソース言語翻訳の実践戦略に関する具体的な傾向と洞察を明らかにする。
我々のNMTシステムは,限られた計算資源とテキストデータにもかかわらず,ゼロショットgpt-3.5-turboの翻訳品質に匹敵する競争性能を達成している。
これらの知見は低リソース言語に対するNMTを著しく前進させ、同様の文脈の研究者に貴重なガイダンスを提供する。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Relevance-guided Neural Machine Translation [5.691028372215281]
ニューラルネットワーク翻訳(NMT)のための説明可能性に基づく学習手法を提案する。
その結果,低リソース環境下でのトレーニングにおいて,本手法が有望であることが示唆された。
論文 参考訳(メタデータ) (2023-11-30T21:52:02Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Neural Machine Translation For Low Resource Languages [0.0]
本稿では,低資源言語の領域を考察し,最先端の結果を得るためにニューラルマシン翻訳モデルを構築する。
本稿は,mBART言語モデルを構築し,様々なNLPおよびディープラーニング技術でそれを拡張するための戦略を探究する。
論文 参考訳(メタデータ) (2023-04-16T19:27:48Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Towards Better Chinese-centric Neural Machine Translation for
Low-resource Languages [12.374365655284342]
ニューラルマシン翻訳(NMT)システムの構築は、特に低リソース環境において急激なトレンドとなっている。
最近の研究は、英語を中心とした低リソースのNMTシステムを研究する傾向にあるが、中国語など他の言語を中心とした低リソースのNMTシステムに焦点を当てる研究はほとんどない。
本稿では,モノリンガル単語の埋め込みによるデータ強化,バイリンガルカリキュラム学習,コントラスト的再ランク付けを活用した勝者競争システムを提案する。
論文 参考訳(メタデータ) (2022-04-09T01:05:37Z) - A Survey on Low-Resource Neural Machine Translation [106.51056217748388]
我々は、関連する作品を、使用した補助データに基づいて3つのカテゴリに分類する。
私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
論文 参考訳(メタデータ) (2021-07-09T06:26:38Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Adapting High-resource NMT Models to Translate Low-resource Related
Languages without Parallel Data [40.11208706647032]
並列データの不足は、低リソース言語向けの高品質機械翻訳システムのトレーニングにおいて大きな障害となる。
本研究では,この言語的重複を利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にする。
我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた手法である。
論文 参考訳(メタデータ) (2021-05-31T16:01:18Z) - Low-Resource Adaptation of Neural NLP Models [0.30458514384586405]
本論文は,情報抽出と自然言語理解における低リソースシナリオを扱う手法について考察する。
ニューラルNLPモデルを開発し,学習データを最小限にしたNLPタスクに関する多くの研究課題を探索する。
論文 参考訳(メタデータ) (2020-11-09T12:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。