Fugu-MT 論文翻訳(概要): Participatory Research for Low-resourced Machine Translation: A Case Study in African Languages

論文の概要: Participatory Research for Low-resourced Machine Translation: A Case Study in African Languages

arxiv url: http://arxiv.org/abs/2010.02353v2
Date: Fri, 6 Nov 2020 23:30:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 19:45:40.115394
Title: Participatory Research for Low-resourced Machine Translation: A Case Study in African Languages
Title（参考訳）: 低リソース機械翻訳への参加研究:アフリカ語を事例として
Authors: Wilhelmina Nekoto, Vukosi Marivate, Tshinondiwa Matsila, Timi Fasubaa, Tajudeen Kolawole, Taiwo Fagbohungbe, Solomon Oluwole Akinola, Shamsuddeen Hassan Muhammad, Salomon Kabongo, Salomey Osei, Sackey Freshia, Rubungo Andre Niyongabo, Ricky Macharm, Perez Ogayo, Orevaoghene Ahia, Musie Meressa, Mofe Adeyemi, Masabata Mokgesi-Selinga, Lawrence Okegbemi, Laura Jane Martinus, Kolawole Tajudeen, Kevin Degila, Kelechi Ogueji, Kathleen Siminyu, Julia Kreutzer, Jason Webster, Jamiil Toure Ali, Jade Abbott, Iroro Orife, Ignatius Ezeani, Idris Abdulkabir Dangana, Herman Kamper, Hady Elsahar, Goodness Duru, Ghollah Kioko, Espoir Murhabazi, Elan van Biljon, Daniel Whitenack, Christopher Onyefuluchi, Chris Emezue, Bonaventure Dossou, Blessing Sibanda, Blessing Itoro Bassey, Ayodele Olabiyi, Arshath Ramkilowan, Alp \"Oktem, Adewale Akinfaderin, Abdallah Bashir
Abstract要約: ロー・リソーシング」はデータの可用性を超えた複雑な問題であり、社会の体系的な問題を反映している。我々は,機械翻訳開発プロセスに必要なすべてのエージェントを巻き込む手段として,参加研究を提案する。
参考スコア（独自算出の注目度）: 15.859824747983556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Research in NLP lacks geographic diversity, and the question of how NLP can be scaled to low-resourced languages has not yet been adequately solved. "Low-resourced"-ness is a complex problem going beyond data availability and reflects systemic problems in society. In this paper, we focus on the task of Machine Translation (MT), that plays a crucial role for information accessibility and communication worldwide. Despite immense improvements in MT over the past decade, MT is centered around a few high-resourced languages. As MT researchers cannot solve the problem of low-resourcedness alone, we propose participatory research as a means to involve all necessary agents required in the MT development process. We demonstrate the feasibility and scalability of participatory research with a case study on MT for African languages. Its implementation leads to a collection of novel translation datasets, MT benchmarks for over 30 languages, with human evaluations for a third of them, and enables participants without formal training to make a unique scientific contribution. Benchmarks, models, data, code, and evaluation results are released under https://github.com/masakhane-io/masakhane-mt.
Abstract（参考訳）: NLPの研究は地理的多様性に欠けており、NLPを低リソース言語にスケールする方法に関する問題は、まだ適切に解決されていない。ローソース」性はデータの可用性を超えた複雑な問題であり、社会の体系的な問題を反映している。本稿では,情報アクセシビリティとコミュニケーションにおいて重要な役割を担う機械翻訳(MT)の課題に焦点をあてる。過去10年間でMTの大幅な改善にもかかわらず、MTはいくつかの高リソース言語を中心にしている。 MT研究者は低資源化の問題を単独では解決できないため、MT開発プロセスに必要な全てのエージェントを巻き込む手段として、参加研究を提案する。アフリカ語用mtを事例として,参加型研究の実現可能性と拡張性を示す。その実装は、新しい翻訳データセットの収集、30以上の言語のためのMTベンチマーク、その3分の1の人間の評価、そして正式な訓練を受けずに参加者が独自の科学的貢献をすることができる。ベンチマーク、モデル、データ、コード、評価結果はhttps://github.com/masakhane-io/masakhane-mtでリリースされている。

関連論文リスト

A Gamified Evaluation and Recruitment Platform for Low Resource Language Machine Translation Systems [0.0]
本稿では,採用・ゲーミフィケーション評価プラットフォームの設計を目的とし,既存の評価手順のレビューを行う。その結果、Machine Translation (MT) システムの開発者のためのリクルートとゲーミフィケーション評価プラットフォームの設計が得られた。また、このプラットフォームの評価や、自然言語処理(NLP)研究の幅広い領域における応用の可能性についても論じられている。
論文参考訳（メタデータ） (2025-06-13T04:42:16Z)
Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T14:53:49Z)
From Priest to Doctor: Domain Adaptation for Low-Resource Neural Machine Translation [3.666125285899499]
多くの言語は、高性能汎用ニューラルネットワーク翻訳(NMT)モデルを訓練するのに不十分なデータを持っている。世界中の言語の多くは、高性能汎用ニューラルマシン翻訳(NMT)モデルをトレーニングするのに不十分なデータを持っている。
論文参考訳（メタデータ） (2024-12-01T21:06:08Z)
Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service [7.299910666525873]
我々は,ティモール・レステのテトゥーン語に特化したMTサービスであるtetun$.$orgの実際の使用パターンについて,観察的研究を行った。 10万件の翻訳要求を解析した結果,既存のコーパスに基づいて仮定に挑戦するパターンが明らかになった。この結果から,テトゥーンのような制度化されたマイノリティ言語のためのMTシステムは,教育的文脈に関連する領域の精度を優先すべきであることが示唆された。
論文参考訳（メタデータ） (2024-11-19T06:21:51Z)
Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。 2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文参考訳（メタデータ） (2024-08-23T00:59:38Z)
EthioMT: Parallel Corpus for Low-resource Ethiopian Languages [49.80726355048843]
15言語用の新しい並列コーパスであるEthioMTを紹介する。また、エチオピアのより優れた言語のためのデータセットを収集して、新しいベンチマークを作成する。トランスフォーマーと微調整手法を用いて,新たに収集したコーパスと23のエチオピア語に対するベンチマークデータセットを評価した。
論文参考訳（メタデータ） (2024-03-28T12:26:45Z)
Replicable Benchmarking of Neural Machine Translation (NMT) on Low-Resource Local Languages in Indonesia [4.634142034755327]
本研究は,インドネシアの4つの低リソースローカル言語(ジャワ語,スンダ語,ミナンカバウ語,バリンセ語)を対象としたNMTシステムの訓練を包括的に分析する。我々の研究は、限られた計算資源とテキストデータにもかかわらず、いくつかのNMTシステムが競合性能を達成することを実証している。
論文参考訳（メタデータ） (2023-11-02T05:27:48Z)
ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。 MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文参考訳（メタデータ） (2023-09-14T04:36:00Z)
Mitigating Data Imbalance and Representation Degeneration in Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。 Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文参考訳（メタデータ） (2023-05-22T07:31:08Z)
Dictionary-based Phrase-level Prompting of Large Language Models for Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。 LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。 LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文参考訳（メタデータ） (2023-02-15T18:46:42Z)
Towards Better Chinese-centric Neural Machine Translation for Low-resource Languages [12.374365655284342]
ニューラルマシン翻訳(NMT)システムの構築は、特に低リソース環境において急激なトレンドとなっている。最近の研究は、英語を中心とした低リソースのNMTシステムを研究する傾向にあるが、中国語など他の言語を中心とした低リソースのNMTシステムに焦点を当てる研究はほとんどない。本稿では,モノリンガル単語の埋め込みによるデータ強化,バイリンガルカリキュラム学習,コントラスト的再ランク付けを活用した勝者競争システムを提案する。
論文参考訳（メタデータ） (2022-04-09T01:05:37Z)
A Survey on Low-Resource Neural Machine Translation [106.51056217748388]
我々は、関連する作品を、使用した補助データに基づいて3つのカテゴリに分類する。私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
論文参考訳（メタデータ） (2021-07-09T06:26:38Z)
Low-Resource Adaptation of Neural NLP Models [0.30458514384586405]
本論文は,情報抽出と自然言語理解における低リソースシナリオを扱う手法について考察する。ニューラルNLPモデルを開発し,学習データを最小限にしたNLPタスクに関する多くの研究課題を探索する。
論文参考訳（メタデータ） (2020-11-09T12:13:55Z)
On the Integration of LinguisticFeatures into Statistical and Neural Machine Translation [2.132096006921048]
機械翻訳に対する統計的アプローチの強みと人間の翻訳方法の相違について検討する。自動翻訳システムがより正確な翻訳を行うために欠落している言語情報を同定する。我々は、過一般化または「アルゴミックバイアス」をニューラルMTの潜在的な欠点として認識し、残りの言語問題の多くにリンクする。
論文参考訳（メタデータ） (2020-03-31T16:03:38Z)
A Comprehensive Survey of Multilingual Neural Machine Translation [22.96845346423759]
我々は多言語ニューラルマシン翻訳(MNMT)について調査する。 MNMTは、機械翻訳の研究のために、エンドツーエンドのモデリングと分散表現が新しい道を開くため、統計機械翻訳よりも有望である。まず、その中心となるユースケースに基づいて様々なアプローチを分類し、さらにリソースシナリオ、基礎となるモデリング原則、コアイシュー、課題に基づいてそれらを分類します。
論文参考訳（メタデータ） (2020-01-04T19:38:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。