論文の概要: Open Machine Translation for Esperanto
- arxiv url: http://arxiv.org/abs/2603.29345v1
- Date: Tue, 31 Mar 2026 07:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.2454
- Title: Open Machine Translation for Esperanto
- Title(参考訳): エスペラントのためのオープン機械翻訳
- Authors: Ona de Gibert, Lluís de Gibert,
- Abstract要約: Esperantoのためのオープンソースの機械翻訳システムの総合評価を行った。
ルールベースシステム,エンコーダデコーダモデル,LLMをモデルサイズで比較する。
以上の結果から,NLLBファミリーは全ての言語ペアで最高の性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 2.1836499601883754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Esperanto is a widespread constructed language, known for its regular grammar and productive word formation. Besides having substantial resources available thanks to its online community, it remains relatively underexplored in the context of modern machine translation (MT) approaches. In this work, we present the first comprehensive evaluation of open-source MT systems for Esperanto, comparing rule-based systems, encoder-decoder models, and LLMs across model sizes. We evaluate translation quality across six language directions involving English, Spanish, Catalan, and Esperanto using multiple automatic metrics as well as human evaluation. Our results show that the NLLB family achieves the best performance in all language pairs, followed closely by our trained compact models and a fine-tuned general-purpose LLM. Human evaluation confirms this trend, with NLLB translations preferred in approximately half of the comparisons, although noticeable errors remain. In line with Esperanto's tradition of openness and international collaboration, we release our code and best-performing models publicly.
- Abstract(参考訳): エスペラント語は広く構築された言語であり、正規文法と生産的な単語形成で知られている。
オンラインコミュニティのおかげで、かなりのリソースが手に入るだけでなく、現代の機械翻訳(MT)アプローチの文脈では、まだあまり研究されていない。
本研究では,エスペラントのオープンソースMTシステムについて,ルールベースシステム,エンコーダ・デコーダモデル,LLMをモデルサイズで比較し,総合評価を行った。
我々は,英語,スペイン語,カタルーニャ語,エスペラント語を含む6つの言語方向の翻訳品質を,複数の自動測定値と人間の評価値を用いて評価した。
以上の結果から,NLLBファミリーは全ての言語ペアで最高の性能を達成でき,さらに訓練されたコンパクトモデルと微調整された汎用LLMがそれに近づいた。
人間による評価はこの傾向を確認し、NLLB翻訳は比較の約半分で好まれるが、目立った誤りは残る。
Esperanto氏のオープン性と国際的なコラボレーションという伝統に従って、コードと最高のパフォーマンスのモデルを公開しています。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - M-Prometheus: A Suite of Open Multilingual LLM Judges [65.63858815169924]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。
M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文 参考訳(メタデータ) (2025-04-07T11:37:26Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Machine Translation with Large Language Models: Prompt Engineering for
Persian, English, and Russian Directions [0.0]
生成型大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、例外的な習熟性を示している。
我々は,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせについて調査を行った。
論文 参考訳(メタデータ) (2024-01-16T15:16:34Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。