論文の概要: A Gamified Evaluation and Recruitment Platform for Low Resource Language Machine Translation Systems
- arxiv url: http://arxiv.org/abs/2506.11467v1
- Date: Fri, 13 Jun 2025 04:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.660028
- Title: A Gamified Evaluation and Recruitment Platform for Low Resource Language Machine Translation Systems
- Title(参考訳): 低資源言語機械翻訳システムのためのゲーミフィケーション評価・検索プラットフォーム
- Authors: Carlos Rafael Catalan,
- Abstract要約: 本稿では,採用・ゲーミフィケーション評価プラットフォームの設計を目的とし,既存の評価手順のレビューを行う。
その結果、Machine Translation (MT) システムの開発者のためのリクルートとゲーミフィケーション評価プラットフォームの設計が得られた。
また、このプラットフォームの評価や、自然言語処理(NLP)研究の幅広い領域における応用の可能性についても論じられている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human evaluators provide necessary contributions in evaluating large language models. In the context of Machine Translation (MT) systems for low-resource languages (LRLs), this is made even more apparent since popular automated metrics tend to be string-based, and therefore do not provide a full picture of the nuances of the behavior of the system. Human evaluators, when equipped with the necessary expertise of the language, will be able to test for adequacy, fluency, and other important metrics. However, the low resource nature of the language means that both datasets and evaluators are in short supply. This presents the following conundrum: How can developers of MT systems for these LRLs find adequate human evaluators and datasets? This paper first presents a comprehensive review of existing evaluation procedures, with the objective of producing a design proposal for a platform that addresses the resource gap in terms of datasets and evaluators in developing MT systems. The result is a design for a recruitment and gamified evaluation platform for developers of MT systems. Challenges are also discussed in terms of evaluating this platform, as well as its possible applications in the wider scope of Natural Language Processing (NLP) research.
- Abstract(参考訳): 人間の評価者は、大きな言語モデルを評価するのに必要な貢献をする。
低リソース言語(LRL)のための機械翻訳システム(MT)の文脈では、一般的な自動メトリクスは文字列ベースである傾向があるため、システムの振舞いのニュアンスの全像は提供されない。
人間の評価者は、言語に必要な専門知識を備えていれば、正確性、流用性、その他の重要な指標をテストすることができる。
しかし、この言語の低リソース性は、データセットと評価器の両方が不足していることを意味する。
これらのLRLのためのMTシステムの開発者は、どのようにして適切な人間評価器とデータセットを見つけることができるのか?
本稿では,MTシステム開発における資源ギャップに対処するプラットフォームの設計提案を考案し,既存の評価手順の総合的なレビューを行う。
その結果、MTシステム開発者のための採用とゲーミフィケーション評価プラットフォームの設計が得られた。
また、このプラットフォームの評価や、自然言語処理(NLP)研究の幅広い領域における応用の可能性についても論じられている。
関連論文リスト
- Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review [0.7366405857677227]
本稿では、低リソース言語(LRL)における生成言語モデリングにおけるデータ不足に対処する戦略に焦点を当てる。
モノリンガルデータ拡張、バックトランスレーション、多言語トレーニング、即興エンジニアリングなど、技術的アプローチを特定し、分類し、評価する。
我々は,これらの手法を広い範囲のLRLに拡張することを推奨し,同値生成言語システムを構築する上でのオープンな課題を概説する。
論文 参考訳(メタデータ) (2025-05-07T16:04:45Z) - Translation Analytics for Freelancers: I. Introduction, Data Preparation, Baseline Evaluations [0.0]
これは、最近の言語技術の進歩に起因する、急速に拡大する新しい機会を探求する一連の論文の最初のものである。
我々は、これらの進歩を活用するための実用的な手法で翻訳者を強化することを目指している。
論文 参考訳(メタデータ) (2025-04-20T13:54:28Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z) - Unsupervised Quality Estimation for Neural Machine Translation [63.38918378182266]
既存のアプローチでは、大量の専門家アノテートデータ、計算、トレーニング時間が必要です。
MTシステム自体以外に、トレーニングや追加リソースへのアクセスが不要なQEに対して、教師なしのアプローチを考案する。
我々は品質の人間の判断と非常によく相関し、最先端の教師付きQEモデルと競合する。
論文 参考訳(メタデータ) (2020-05-21T12:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。