論文の概要: How Good is Zero-Shot MT Evaluation for Low Resource Indian Languages?
- arxiv url: http://arxiv.org/abs/2406.03893v1
- Date: Thu, 6 Jun 2024 09:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 15:29:45.920667
- Title: How Good is Zero-Shot MT Evaluation for Low Resource Indian Languages?
- Title(参考訳): 低資源インド語におけるゼロショットMTの評価はどの程度優れているか?
- Authors: Anushka Singh, Ananya B. Sai, Raj Dabre, Ratish Puduppully, Anoop Kunchukuttan, Mitesh M Khapra,
- Abstract要約: Assamese、Kannada、Maithili、Punjabiといった低リソースのインドの言語に焦点を当てたゼロショット評価に重点を置いている。
ゼロショット性能を示すことが知られている学習指標であっても、人間のアノテーションとKendall TauとPearsonの相関は0.32と0.45である。
- 参考スコア(独自算出の注目度): 35.368257850926184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While machine translation evaluation has been studied primarily for high-resource languages, there has been a recent interest in evaluation for low-resource languages due to the increasing availability of data and models. In this paper, we focus on a zero-shot evaluation setting focusing on low-resource Indian languages, namely Assamese, Kannada, Maithili, and Punjabi. We collect sufficient Multi-Dimensional Quality Metrics (MQM) and Direct Assessment (DA) annotations to create test sets and meta-evaluate a plethora of automatic evaluation metrics. We observe that even for learned metrics, which are known to exhibit zero-shot performance, the Kendall Tau and Pearson correlations with human annotations are only as high as 0.32 and 0.45. Synthetic data approaches show mixed results and overall do not help close the gap by much for these languages. This indicates that there is still a long way to go for low-resource evaluation.
- Abstract(参考訳): 機械翻訳評価は、主に高リソース言語を対象として研究されているが、データやモデルの普及により、近年、低リソース言語に対する評価への関心が高まっている。
本稿では,Assamese,Kannada,Maithili,Punjabiといった低リソースのインドの言語に焦点を当てたゼロショット評価に焦点をあてる。
我々は、テストセットを作成し、多数の自動評価指標をメタ評価するために、十分な多次元品質メトリクス(MQM)と直接評価(DA)アノテーションを収集します。
ゼロショット性能を示すことが知られている学習指標であっても、人間のアノテーションとKendall TauとPearsonの相関は0.32と0.45である。
合成データアプローチは複雑な結果を示し、全体としてこれらの言語ではギャップを埋めるには役に立たない。
これは、低リソース評価にはまだまだ長い道のりがあることを示している。
関連論文リスト
- Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation [0.0]
エマクフワ語はモザンビークで広く話されている低リソース言語である。
私たちは、開発セットと開発セットをポルトガル語からエマフワ語に翻訳します。
使用する翻訳プロセスと品質保証対策について詳述する。
論文 参考訳(メタデータ) (2024-08-21T09:23:20Z) - On the Evaluation Practices in Multilingual NLP: Can Machine Translation Offer an Alternative to Human Translations? [19.346078451375693]
NLPにおける既存の評価フレームワークについて分析する。
より堅牢で信頼性の高い評価手法を提案する。
より単純なベースラインは,大規模多言語事前学習の恩恵を受けずに比較的高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-20T12:46:12Z) - An Empirical Study on the Robustness of Massively Multilingual Neural Machine Translation [40.08063412966712]
多言語多言語ニューラルマシン翻訳(MMNMT)は低リソース言語の翻訳品質を高めることが証明されている。
インドネシア・中国語翻訳のためのロバストネス評価ベンチマークデータセットを作成する。
このデータセットは、異なるサイズの4つのNLLB-200モデルを使用して、自動的に中国語に翻訳される。
論文 参考訳(メタデータ) (2024-05-13T12:01:54Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - IndicMT Eval: A Dataset to Meta-Evaluate Machine Translation metrics for
Indian Languages [25.654787264483183]
5つのインドの言語と7つのMTシステムにまたがる、7000の細かいアノテーションからなるMQMデータセットを作成します。
この結果から,COMETなどの事前学習メトリクスはアノテータスコアと最も高い相関関係があることが示唆された。
これらの指標は,インドの言語におけるフラレンシに基づく誤りを適切に捉えていないことが判明した。
論文 参考訳(メタデータ) (2022-12-20T11:37:22Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。