論文の概要: Participatory Research for Low-resourced Machine Translation: A Case
Study in African Languages
- arxiv url: http://arxiv.org/abs/2010.02353v2
- Date: Fri, 6 Nov 2020 23:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:45:40.115394
- Title: Participatory Research for Low-resourced Machine Translation: A Case
Study in African Languages
- Title(参考訳): 低リソース機械翻訳への参加研究:アフリカ語を事例として
- Authors: Wilhelmina Nekoto, Vukosi Marivate, Tshinondiwa Matsila, Timi Fasubaa,
Tajudeen Kolawole, Taiwo Fagbohungbe, Solomon Oluwole Akinola, Shamsuddeen
Hassan Muhammad, Salomon Kabongo, Salomey Osei, Sackey Freshia, Rubungo Andre
Niyongabo, Ricky Macharm, Perez Ogayo, Orevaoghene Ahia, Musie Meressa, Mofe
Adeyemi, Masabata Mokgesi-Selinga, Lawrence Okegbemi, Laura Jane Martinus,
Kolawole Tajudeen, Kevin Degila, Kelechi Ogueji, Kathleen Siminyu, Julia
Kreutzer, Jason Webster, Jamiil Toure Ali, Jade Abbott, Iroro Orife, Ignatius
Ezeani, Idris Abdulkabir Dangana, Herman Kamper, Hady Elsahar, Goodness Duru,
Ghollah Kioko, Espoir Murhabazi, Elan van Biljon, Daniel Whitenack,
Christopher Onyefuluchi, Chris Emezue, Bonaventure Dossou, Blessing Sibanda,
Blessing Itoro Bassey, Ayodele Olabiyi, Arshath Ramkilowan, Alp \"Oktem,
Adewale Akinfaderin, Abdallah Bashir
- Abstract要約: ロー・リソーシング」はデータの可用性を超えた複雑な問題であり、社会の体系的な問題を反映している。
我々は,機械翻訳開発プロセスに必要なすべてのエージェントを巻き込む手段として,参加研究を提案する。
- 参考スコア(独自算出の注目度): 15.859824747983556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in NLP lacks geographic diversity, and the question of how NLP can
be scaled to low-resourced languages has not yet been adequately solved.
"Low-resourced"-ness is a complex problem going beyond data availability and
reflects systemic problems in society. In this paper, we focus on the task of
Machine Translation (MT), that plays a crucial role for information
accessibility and communication worldwide. Despite immense improvements in MT
over the past decade, MT is centered around a few high-resourced languages. As
MT researchers cannot solve the problem of low-resourcedness alone, we propose
participatory research as a means to involve all necessary agents required in
the MT development process. We demonstrate the feasibility and scalability of
participatory research with a case study on MT for African languages. Its
implementation leads to a collection of novel translation datasets, MT
benchmarks for over 30 languages, with human evaluations for a third of them,
and enables participants without formal training to make a unique scientific
contribution. Benchmarks, models, data, code, and evaluation results are
released under https://github.com/masakhane-io/masakhane-mt.
- Abstract(参考訳): NLPの研究は地理的多様性に欠けており、NLPを低リソース言語にスケールする方法に関する問題は、まだ適切に解決されていない。
ローソース」性はデータの可用性を超えた複雑な問題であり、社会の体系的な問題を反映している。
本稿では,情報アクセシビリティとコミュニケーションにおいて重要な役割を担う機械翻訳(MT)の課題に焦点をあてる。
過去10年間でMTの大幅な改善にもかかわらず、MTはいくつかの高リソース言語を中心にしている。
MT研究者は低資源化の問題を単独では解決できないため、MT開発プロセスに必要な全てのエージェントを巻き込む手段として、参加研究を提案する。
アフリカ語用mtを事例として,参加型研究の実現可能性と拡張性を示す。
その実装は、新しい翻訳データセットの収集、30以上の言語のためのMTベンチマーク、その3分の1の人間の評価、そして正式な訓練を受けずに参加者が独自の科学的貢献をすることができる。
ベンチマーク、モデル、データ、コード、評価結果はhttps://github.com/masakhane-io/masakhane-mtでリリースされている。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - From Priest to Doctor: Domain Adaptaion for Low-Resource Neural Machine Translation [3.666125285899499]
多くの言語は、高性能汎用ニューラルネットワーク翻訳(NMT)モデルを訓練するのに不十分なデータを持っている。
世界中の言語の多くは、高性能汎用ニューラルマシン翻訳(NMT)モデルをトレーニングするのに不十分なデータを持っている。
論文 参考訳(メタデータ) (2024-12-01T21:06:08Z) - Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service [7.299910666525873]
本稿では,Timor-LesteのTetun言語におけるMTサービスの実際の利用パターンについて考察する。
10万件の翻訳要求を解析した結果,既存のコーパスに基づいて仮定に挑戦するパターンが明らかになった。
この結果から,テトゥーンのような少数言語のためのMTシステムは,教育的文脈に関連する領域の精度を優先すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-11-19T06:21:51Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - EthioMT: Parallel Corpus for Low-resource Ethiopian Languages [49.80726355048843]
15言語用の新しい並列コーパスであるEthioMTを紹介する。
また、エチオピアのより優れた言語のためのデータセットを収集して、新しいベンチマークを作成する。
トランスフォーマーと微調整手法を用いて,新たに収集したコーパスと23のエチオピア語に対するベンチマークデータセットを評価した。
論文 参考訳(メタデータ) (2024-03-28T12:26:45Z) - Replicable Benchmarking of Neural Machine Translation (NMT) on
Low-Resource Local Languages in Indonesia [4.634142034755327]
本研究は,インドネシアの4つの低リソースローカル言語(ジャワ語,スンダ語,ミナンカバウ語,バリンセ語)を対象としたNMTシステムの訓練を包括的に分析する。
我々の研究は、限られた計算資源とテキストデータにもかかわらず、いくつかのNMTシステムが競合性能を達成することを実証している。
論文 参考訳(メタデータ) (2023-11-02T05:27:48Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - Towards Better Chinese-centric Neural Machine Translation for
Low-resource Languages [12.374365655284342]
ニューラルマシン翻訳(NMT)システムの構築は、特に低リソース環境において急激なトレンドとなっている。
最近の研究は、英語を中心とした低リソースのNMTシステムを研究する傾向にあるが、中国語など他の言語を中心とした低リソースのNMTシステムに焦点を当てる研究はほとんどない。
本稿では,モノリンガル単語の埋め込みによるデータ強化,バイリンガルカリキュラム学習,コントラスト的再ランク付けを活用した勝者競争システムを提案する。
論文 参考訳(メタデータ) (2022-04-09T01:05:37Z) - A Survey on Low-Resource Neural Machine Translation [106.51056217748388]
我々は、関連する作品を、使用した補助データに基づいて3つのカテゴリに分類する。
私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
論文 参考訳(メタデータ) (2021-07-09T06:26:38Z) - On the Integration of LinguisticFeatures into Statistical and Neural
Machine Translation [2.132096006921048]
機械翻訳に対する統計的アプローチの強みと人間の翻訳方法の相違について検討する。
自動翻訳システムがより正確な翻訳を行うために欠落している言語情報を同定する。
我々は、過一般化または「アルゴミックバイアス」をニューラルMTの潜在的な欠点として認識し、残りの言語問題の多くにリンクする。
論文 参考訳(メタデータ) (2020-03-31T16:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。