論文の概要: Expanding the WMT24++ Benchmark with Rumantsch Grischun, Sursilvan, Sutsilvan, Surmiran, Puter, and Vallader
- arxiv url: http://arxiv.org/abs/2509.03148v1
- Date: Wed, 03 Sep 2025 08:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.471143
- Title: Expanding the WMT24++ Benchmark with Rumantsch Grischun, Sursilvan, Sutsilvan, Surmiran, Puter, and Vallader
- Title(参考訳): Rumantsch Grischun氏、Sursilvan氏、Sutsilvan氏、Surmiran氏、Puter氏、Vallader氏によるWMT24++ベンチマークの拡張
- Authors: Jannis Vamvas, Ignacio Pérez Prat, Not Battesta Soliva, Sandra Baltermia-Guetg, Andrina Beeli, Simona Beeli, Madlaina Capeder, Laura Decurtins, Gian Peder Gregori, Flavia Hobi, Gabriela Holderegger, Arina Lazzarini, Viviana Lazzarini, Walter Rosselli, Bettina Vital, Anna Rutkiewicz, Rico Sennrich,
- Abstract要約: Rumantsch Grischunは超地域品種であり、Sursilvan、Sutsilvan、Surmiran、Puter、Valladerの5つの地域品種である。
我々の参照翻訳は、WMT24++ベンチマークに基づいて、人間の翻訳者によって作成された。
- 参考スコア(独自算出の注目度): 20.44956817574587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Romansh language, spoken in Switzerland, has limited resources for machine translation evaluation. In this paper, we present a benchmark for six varieties of Romansh: Rumantsch Grischun, a supra-regional variety, and five regional varieties: Sursilvan, Sutsilvan, Surmiran, Puter, and Vallader. Our reference translations were created by human translators based on the WMT24++ benchmark, which ensures parallelism with more than 55 other languages. An automatic evaluation of existing MT systems and LLMs shows that translation out of Romansh into German is handled relatively well for all the varieties, but translation into Romansh is still challenging.
- Abstract(参考訳): スイスで話されているロマンシュ語は機械翻訳評価のための限られた資源を持っている。
本稿では,Sursilvan,Sutsilvan,Surmiran,Puter,Valladerの5つの地域品種と,Sursilvan,Sutsilvan,Sutsilvan,Surmiran,Puter,Valladerの6つの地域品種のベンチマークを示す。
我々の参照翻訳は、WMT24++ベンチマークに基づく人間の翻訳者によって作成され、55以上の言語で並列性を保証する。
既存のMTシステムとLLMの自動評価では、ロマンシュ語からドイツ語への翻訳は全ての品種で比較的うまく扱われているが、ロマンシュ語への翻訳は依然として困難である。
関連論文リスト
- Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark [11.068031181100276]
我々は4つの言語(Asante Twi, Japanese, Jinghpaw, South Azerbaijani)のデータを研究する。
真の多言語評価に対するベンチマークの適合性の重大な欠点を明らかにする。
我々は、ドメイン汎用および文化的に中立なソーステキストを使用する多言語MTベンチマークを提唱する。
論文 参考訳(メタデータ) (2025-08-28T07:52:42Z) - Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification [66.69370876902222]
本研究は,9言語にわたるテキストデトックス化システムの評価に関する総合的多言語研究である。
我々は,現代のニューラルベース評価モデルの有効性を,プロンプトベースLCM-as-a-judgeアプローチと併用して評価する。
本研究は,より信頼性の高い多言語TST評価パイプラインを設計するための実用的なレシピを提供する。
論文 参考訳(メタデータ) (2025-07-21T12:38:07Z) - SwiLTra-Bench: The Swiss Legal Translation Benchmark [10.2713063405843]
SwiLTra-Benchは180Kを超えるスイスの法翻訳ペアの総合ベンチマークである。
体系的な評価により、フロンティアモデルは全ての文書タイプで優れた翻訳性能が得られることが示された。
SwiLTra-Judgeは、人間の専門家による評価に最適な特殊なLCM評価システムである。
論文 参考訳(メタデータ) (2025-03-03T10:10:30Z) - WMT24++: Expanding the Language Coverage of WMT24 to 55 Languages & Dialects [41.35634985044016]
WMT24データセットを55言語に拡張し、新しい人書き参照と46の新しい言語と方言に対する後編集を収集する。
データセットには、文学、ニュース、社会、スピーチの4つの領域が含まれている。
収集したデータセット上で,各種MTプロバイダとLLMを自動メトリクスを用いてベンチマークし,LLMが全55言語で最高のパフォーマンスのMTシステムであることが確認された。
論文 参考訳(メタデータ) (2025-02-18T00:39:30Z) - Reconsidering SMT Over NMT for Closely Related Languages: A Case Study of Persian-Hindi Pair [41.09752906121257]
本稿では,Phrase-Based Statistical Machine Translation (PBSMT) がトランスフォーマーベースのニューラルマシン翻訳 (NMT) を適度に活用できることを示す。
その結果,PBSMTのBLEUスコアは66.32であり,Transformer-NMTスコアは53.7以上であった。
論文 参考訳(メタデータ) (2024-12-22T06:12:46Z) - Machine Translation Models are Zero-Shot Detectors of Translation Direction [46.41883195574249]
平行テキストの翻訳方向を検出することは、機械翻訳訓練や評価に応用できるが、盗作や偽造の主張を解消するといった法医学的応用もある。
本研究では,翻訳文や機械翻訳文でよく知られた単純化効果によって動機付けられた,$p(texttranslation|text Origin)>p(textgenic|texttranslation)$という単純な仮説に基づいて,翻訳方向検出のための教師なしアプローチを検討する。
論文 参考訳(メタデータ) (2024-01-12T18:59:02Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z) - The LMU Munich System for the WMT 2020 Unsupervised Machine Translation
Shared Task [125.06737861979299]
本稿では,LMUミュンヘンのWMT 2020における非教師なし共有タスクへの2つの言語方向の提出について述べる。
我々のunsupervised neural machine translation (UNMT) システムは Chronopoulou et al の戦略に従っている。
我々は、最高の性能のシステムを集め、ドイツ語で32.4点、上セルビアで35.2点、ドイツで35.2点に達した。
論文 参考訳(メタデータ) (2020-10-25T19:04:03Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。