論文の概要: MTQE.en-he: Machine Translation Quality Estimation for English-Hebrew
- arxiv url: http://arxiv.org/abs/2602.06546v1
- Date: Fri, 06 Feb 2026 09:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.327502
- Title: MTQE.en-he: Machine Translation Quality Estimation for English-Hebrew
- Title(参考訳): MTQE.en-he:英語ヘブライ語の機械翻訳品質評価
- Authors: Andy Rosenbaum, Assaf Siani, Ilan Kernerman,
- Abstract要約: MTQE.en-heは、機械翻訳品質推定のための最初の公開ベンチマークである。
ChatGPTプロンプト、TransQuest、CometKiwiをベンチマークします。
TransQuestとCometKiwiによる微調整実験では、フルモデルのアップデートがオーバーフィットと分散崩壊に敏感であることが明らかになった。
- 参考スコア(独自算出の注目度): 1.3821781249379796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We release MTQE.en-he: to our knowledge, the first publicly available English-Hebrew benchmark for Machine Translation Quality Estimation. MTQE.en-he contains 959 English segments from WMT24++, each paired with a machine translation into Hebrew, and Direct Assessment scores of the translation quality annotated by three human experts. We benchmark ChatGPT prompting, TransQuest, and CometKiwi and show that ensembling the three models outperforms the best single model (CometKiwi) by 6.4 percentage points Pearson and 5.6 percentage points Spearman. Fine-tuning experiments with TransQuest and CometKiwi reveal that full-model updates are sensitive to overfitting and distribution collapse, yet parameter-efficient methods (LoRA, BitFit, and FTHead, i.e., fine-tuning only the classification head) train stably and yield improvements of 2-3 percentage points. MTQE.en-he and our experimental results enable future research on this under-resourced language pair.
- Abstract(参考訳): 我々は、MTQE.en-he:を私たちの知る限り、機械翻訳品質推定のための最初の英語ヘブライ語ベンチマークとして公開しています。
MTQE.en-heには、WMT24++から959の英語セグメントが含まれており、それぞれが機械翻訳と組み合わせてヘブライ語に翻訳され、3人の人間の専門家によって注釈付けされた翻訳品質の直接評価スコアがある。
われわれはChatGPTプロンプト、TransQuest、CometKiwiをベンチマークし、3つのモデルのアンサンブルがベストシングルモデル(CometKiwi)を6.4ポイントPearsonと5.6ポイントSearmanで上回っていることを示す。
TransQuestとCometKiwiによる微調整実験では、フルモデル更新はオーバーフィッティングと分散崩壊に敏感であるが、パラメータ効率の手法(LoRA、BitFit、FTHead、すなわち分類ヘッドのみを微調整する)は安定して2~3ポイントの改善が得られた。
MTQE.en-heと実験結果により,このアンダーリソース言語対の今後の研究が可能となった。
関連論文リスト
- MTUncertainty: Assessing the Need for Post-editing of Machine Translation Outputs by Fine-tuning OpenAI LLMs [6.822926897514793]
TQEは機械翻訳(MT)と人間翻訳(HT)の両方の品質を基準翻訳なしで評価する上で重要である。
この目的のために,最先端の大規模言語モデル (LLM) が利用できるかを検討する。
OpenAIモデルを最先端技術として捉え、バイナリ分類タスクとしてTQEにアプローチします。
論文 参考訳(メタデータ) (2023-07-31T21:13:30Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Evaluating and Improving the Coreference Capabilities of Machine
Translation Models [30.60934078720647]
機械翻訳は幅広い言語能力を必要とする。
現在のエンドツーエンドモデルは、バイリンガルコーパスで一致した文を観察することで暗黙的に学習することが期待されている。
論文 参考訳(メタデータ) (2023-02-16T18:16:09Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。