論文の概要: Participatory Research for Low-resourced Machine Translation: A Case
Study in African Languages
- arxiv url: http://arxiv.org/abs/2010.02353v2
- Date: Fri, 6 Nov 2020 23:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:45:40.115394
- Title: Participatory Research for Low-resourced Machine Translation: A Case
Study in African Languages
- Title(参考訳): 低リソース機械翻訳への参加研究:アフリカ語を事例として
- Authors: Wilhelmina Nekoto, Vukosi Marivate, Tshinondiwa Matsila, Timi Fasubaa,
Tajudeen Kolawole, Taiwo Fagbohungbe, Solomon Oluwole Akinola, Shamsuddeen
Hassan Muhammad, Salomon Kabongo, Salomey Osei, Sackey Freshia, Rubungo Andre
Niyongabo, Ricky Macharm, Perez Ogayo, Orevaoghene Ahia, Musie Meressa, Mofe
Adeyemi, Masabata Mokgesi-Selinga, Lawrence Okegbemi, Laura Jane Martinus,
Kolawole Tajudeen, Kevin Degila, Kelechi Ogueji, Kathleen Siminyu, Julia
Kreutzer, Jason Webster, Jamiil Toure Ali, Jade Abbott, Iroro Orife, Ignatius
Ezeani, Idris Abdulkabir Dangana, Herman Kamper, Hady Elsahar, Goodness Duru,
Ghollah Kioko, Espoir Murhabazi, Elan van Biljon, Daniel Whitenack,
Christopher Onyefuluchi, Chris Emezue, Bonaventure Dossou, Blessing Sibanda,
Blessing Itoro Bassey, Ayodele Olabiyi, Arshath Ramkilowan, Alp \"Oktem,
Adewale Akinfaderin, Abdallah Bashir
- Abstract要約: ロー・リソーシング」はデータの可用性を超えた複雑な問題であり、社会の体系的な問題を反映している。
我々は,機械翻訳開発プロセスに必要なすべてのエージェントを巻き込む手段として,参加研究を提案する。
- 参考スコア(独自算出の注目度): 15.859824747983556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in NLP lacks geographic diversity, and the question of how NLP can
be scaled to low-resourced languages has not yet been adequately solved.
"Low-resourced"-ness is a complex problem going beyond data availability and
reflects systemic problems in society. In this paper, we focus on the task of
Machine Translation (MT), that plays a crucial role for information
accessibility and communication worldwide. Despite immense improvements in MT
over the past decade, MT is centered around a few high-resourced languages. As
MT researchers cannot solve the problem of low-resourcedness alone, we propose
participatory research as a means to involve all necessary agents required in
the MT development process. We demonstrate the feasibility and scalability of
participatory research with a case study on MT for African languages. Its
implementation leads to a collection of novel translation datasets, MT
benchmarks for over 30 languages, with human evaluations for a third of them,
and enables participants without formal training to make a unique scientific
contribution. Benchmarks, models, data, code, and evaluation results are
released under https://github.com/masakhane-io/masakhane-mt.
- Abstract(参考訳): NLPの研究は地理的多様性に欠けており、NLPを低リソース言語にスケールする方法に関する問題は、まだ適切に解決されていない。
ローソース」性はデータの可用性を超えた複雑な問題であり、社会の体系的な問題を反映している。
本稿では,情報アクセシビリティとコミュニケーションにおいて重要な役割を担う機械翻訳(MT)の課題に焦点をあてる。
過去10年間でMTの大幅な改善にもかかわらず、MTはいくつかの高リソース言語を中心にしている。
MT研究者は低資源化の問題を単独では解決できないため、MT開発プロセスに必要な全てのエージェントを巻き込む手段として、参加研究を提案する。
アフリカ語用mtを事例として,参加型研究の実現可能性と拡張性を示す。
その実装は、新しい翻訳データセットの収集、30以上の言語のためのMTベンチマーク、その3分の1の人間の評価、そして正式な訓練を受けずに参加者が独自の科学的貢献をすることができる。
ベンチマーク、モデル、データ、コード、評価結果はhttps://github.com/masakhane-io/masakhane-mtでリリースされている。
関連論文リスト
- Replicable Benchmarking of Neural Machine Translation (NMT) on
Low-Resource Local Languages in Indonesia [4.634142034755327]
本研究は,インドネシアの4つの低リソースローカル言語(ジャワ語,スンダ語,ミナンカバウ語,バリンセ語)を対象としたNMTシステムの訓練を包括的に分析する。
我々の研究は、限られた計算資源とテキストデータにもかかわらず、いくつかのNMTシステムが競合性能を達成することを実証している。
論文 参考訳(メタデータ) (2023-11-02T05:27:48Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Towards Better Chinese-centric Neural Machine Translation for
Low-resource Languages [12.374365655284342]
ニューラルマシン翻訳(NMT)システムの構築は、特に低リソース環境において急激なトレンドとなっている。
最近の研究は、英語を中心とした低リソースのNMTシステムを研究する傾向にあるが、中国語など他の言語を中心とした低リソースのNMTシステムに焦点を当てる研究はほとんどない。
本稿では,モノリンガル単語の埋め込みによるデータ強化,バイリンガルカリキュラム学習,コントラスト的再ランク付けを活用した勝者競争システムを提案する。
論文 参考訳(メタデータ) (2022-04-09T01:05:37Z) - Survey of Low-Resource Machine Translation [65.52755521004794]
現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。
翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
論文 参考訳(メタデータ) (2021-09-01T16:57:58Z) - A Survey on Low-Resource Neural Machine Translation [106.51056217748388]
我々は、関連する作品を、使用した補助データに基づいて3つのカテゴリに分類する。
私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
論文 参考訳(メタデータ) (2021-07-09T06:26:38Z) - Low-Resource Adaptation of Neural NLP Models [0.30458514384586405]
本論文は,情報抽出と自然言語理解における低リソースシナリオを扱う手法について考察する。
ニューラルNLPモデルを開発し,学習データを最小限にしたNLPタスクに関する多くの研究課題を探索する。
論文 参考訳(メタデータ) (2020-11-09T12:13:55Z) - On the Integration of LinguisticFeatures into Statistical and Neural
Machine Translation [2.132096006921048]
機械翻訳に対する統計的アプローチの強みと人間の翻訳方法の相違について検討する。
自動翻訳システムがより正確な翻訳を行うために欠落している言語情報を同定する。
我々は、過一般化または「アルゴミックバイアス」をニューラルMTの潜在的な欠点として認識し、残りの言語問題の多くにリンクする。
論文 参考訳(メタデータ) (2020-03-31T16:03:38Z) - A Comprehensive Survey of Multilingual Neural Machine Translation [22.96845346423759]
我々は多言語ニューラルマシン翻訳(MNMT)について調査する。
MNMTは、機械翻訳の研究のために、エンドツーエンドのモデリングと分散表現が新しい道を開くため、統計機械翻訳よりも有望である。
まず、その中心となるユースケースに基づいて様々なアプローチを分類し、さらにリソースシナリオ、基礎となるモデリング原則、コアイシュー、課題に基づいてそれらを分類します。
論文 参考訳(メタデータ) (2020-01-04T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。