Fugu-MT 論文翻訳(概要): Semi-Synthetic Parallel Data for Translation Quality Estimation: A Case Study of Dataset Building for an Under-Resourced Language Pair

論文の概要: Semi-Synthetic Parallel Data for Translation Quality Estimation: A Case Study of Dataset Building for an Under-Resourced Language Pair

arxiv url: http://arxiv.org/abs/2603.11743v1
Date: Thu, 12 Mar 2026 09:48:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.002079
Title: Semi-Synthetic Parallel Data for Translation Quality Estimation: A Case Study of Dataset Building for an Under-Resourced Language Pair
Title（参考訳）: 翻訳品質推定のための半合成並列データ:アンダーソース言語ペアのためのデータセット構築を事例として
Authors: Assaf Siani, Anna Kernerman, Ilan Kernerman,
Abstract要約: 本研究は、英語からヘブライ語へのQEのための半合成並列データセットを提案する。専門的に翻訳された英語・ヘブライ語セグメントを、我々の資源から取り入れ、最高品質スコアを付与した。言語的問題、特に性別と数字の合意に関する問題に対処するために、制御された翻訳エラーが導入された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Quality estimation (QE) plays a crucial role in machine translation (MT) workflows, as it serves to evaluate generated outputs that have no reference translations and to determine whether human post-editing or full retranslation is necessary. Yet, developing highly accurate, adaptable and reliable QE systems for under-resourced language pairs remains largely unsolved, due mainly to limited parallel corpora and to diverse language-dependent factors, such as with morphosyntactically complex languages. This study presents a semi-synthetic parallel dataset for English-to-Hebrew QE, generated by creating English sentences based on examples of usage that illustrate typical linguistic patterns, translating them to Hebrew using multiple MT engines, and filtering outputs via BLEU-based selection. Each translated segment was manually evaluated and scored by a linguist, and we also incorporated professionally translated English-Hebrew segments from our own resources, which were assigned the highest quality score. Controlled translation errors were introduced to address linguistic challenges, particularly regarding gender and number agreement, and we trained neural QE models, including BERT and XLM-R, on this dataset to assess sentence-level MT quality. Our findings highlight the impact of dataset size, distributed balance, and error distribution on model performance. We will describe the challenges, methodology and results of our experiments, and specify future directions aimed at improving QE performance. This research contributes to advancing QE models for under resourced language pairs, including morphology-rich languages.
Abstract（参考訳）: 品質評価(QE)は機械翻訳(MT)のワークフローにおいて重要な役割を担っている。しかし、高度に正確で適応可能で信頼性の高いQEシステムの開発は、主に並列コーパスが限られており、モルフォシンタクティックな複雑な言語のような多種多様な言語依存因子が原因で、ほとんど未解決のままである。本研究では,複数のMTエンジンを用いてヘブライ語に翻訳し,BLEUベースの選択によって出力をフィルタリングする,典型的な言語パターンを記述した使用例に基づいて,英語からヘブライ語への半合成並列データセットを作成した。翻訳されたセグメントは言語学者によって手動で評価・スコアされ、我々の資源からプロ翻訳された英語・ヘブライ語セグメントも組み込まれ、最高品質のスコアが割り当てられた。言語的問題,特に性別と数字の一致に対処するために,制御された翻訳誤りを導入し,このデータセット上でBERTやXLM-Rを含むニューラルQEモデルを訓練し,文レベルMTの品質を評価する。この結果から,データセットのサイズ,分散バランス,エラー分布がモデル性能に与える影響が明らかになった。実験の課題,方法論,成果について述べるとともに,QEのパフォーマンス向上を目的とした今後の方向性を示す。本研究は,形態学に富む言語を含む低資源言語対のQEモデルの発展に寄与する。

関連論文リスト

Beyond Scalar Scores: Reinforcement Learning for Error-Aware Quality Estimation of Machine Translation [10.050982803590903]
品質評価は、参照翻訳に頼ることなく、機械翻訳(MT)出力の品質を評価することを目的としている。重度リソース不足の言語ペアであるMalayalamに、英語のための最初のセグメントレベルQEデータセットを導入する。 ALOPE-RLは、効率的なアダプタを訓練するポリシーベースの強化学習フレームワークである。
論文参考訳（メタデータ） (2026-02-09T12:42:41Z)
HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark [54.73504952691398]
我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
論文参考訳（メタデータ） (2025-08-03T15:53:01Z)
Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
合成QEデータの分散シフトを緩和する新しいフレームワークであるDCSQEを紹介する。 DCSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。実験により、DCSQEは教師なし設定と教師なし設定の両方でSOTAベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2025-02-27T10:11:53Z)
When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文参考訳（メタデータ） (2025-01-08T12:54:05Z)
Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。 OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文参考訳（メタデータ） (2023-05-04T12:21:52Z)
Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文参考訳（メタデータ） (2021-09-08T20:13:06Z)
An Exploratory Analysis of Multilingual Word-Level Quality Estimation with Cross-Lingual Transformers [3.4355075318742165]
単語レベルの多言語QEモデルは、現在の言語固有のモデルと同等に機能することを示す。ゼロショットおよび少数ショットQEの場合、他の言語ペアで訓練されたモデルから、任意の新しい言語ペアに対する単語レベルの品質を正確に予測できることを実証する。
論文参考訳（メタデータ） (2021-05-31T23:21:10Z)
Ensemble-based Transfer Learning for Low-resource Machine Translation Quality Estimation [1.7188280334580195]
第5回機械翻訳会議(WMT20)の文レベルQE共有タスクに焦点を当てます。このようなQEデータ不足の課題を克服するために、トランスファーラーニングを備えたアンサンブルベースの予測器推定QEモデルを提案する。個々の言語で事前学習されたモデルと異なるレベルの並列学習コーパスと、ピアソンの相関値0.298とを組み合わせたアンサンブルモデルにおいて、最も優れた性能を実現する。
論文参考訳（メタデータ） (2021-05-17T06:02:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。