論文の概要: Trainable Reference-Based Evaluation Metric for Identifying Quality of English-Gujarati Machine Translation System
- arxiv url: http://arxiv.org/abs/2510.05113v1
- Date: Sat, 27 Sep 2025 16:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.830401
- Title: Trainable Reference-Based Evaluation Metric for Identifying Quality of English-Gujarati Machine Translation System
- Title(参考訳): 英語グジャラティ機械翻訳システムの品質判定のためのトレーニング可能な基準ベース評価指標
- Authors: Nisheeth Joshi, Pragya Katyayan, Palak Arora,
- Abstract要約: 我々はグジャラティの基準に基づくMT評価指標を導入した。
トレーニングに25のフィーチャを使用する2つのバージョンのメトリックをトレーニングしました。
その結果, 測定値の相関性は良好であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine Translation (MT) Evaluation is an integral part of the MT development life cycle. Without analyzing the outputs of MT engines, it is impossible to evaluate the performance of an MT system. Through experiments, it has been identified that what works for English and other European languages does not work well with Indian languages. Thus, In this paper, we have introduced a reference-based MT evaluation metric for Gujarati which is based on supervised learning. We have trained two versions of the metric which uses 25 features for training. Among the two models, one model is trained using 6 hidden layers with 500 epochs while the other model is trained using 10 hidden layers with 500 epochs. To test the performance of the metric, we collected 1000 MT outputs of seven MT systems. These MT engine outputs were compared with 1 human reference translation. While comparing the developed metrics with other available metrics, it was found that the metrics produced better human correlations.
- Abstract(参考訳): 機械翻訳(MT)評価は、MT開発ライフサイクルの不可欠な部分である。
MTエンジンの出力を解析しなければ,MTシステムの性能を評価することは不可能である。
実験を通じて、英語や他のヨーロッパの言語で何が機能するかは、インドの言語ではうまくいかないことが判明した。
そこで本稿では,教師あり学習に基づくグジャラティの基準に基づくMT評価指標を提案する。
トレーニングに25のフィーチャを使用する2つのバージョンのメトリックをトレーニングしました。
2つのモデルのうち、1つのモデルは500のエポックを持つ6つの隠蔽層で訓練され、もう1つのモデルは500のエポックを持つ10の隠蔽層で訓練される。
その結果,7つのMTシステムの1000 MT出力が得られた。
これらのMTエンジン出力は、1人の参照翻訳と比較された。
開発したメトリクスと他の利用可能なメトリクスを比較しながら、これらのメトリクスがより良い人間相関を生み出したことがわかった。
関連論文リスト
- Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Trained MT Metrics Learn to Cope with Machine-translated References [47.00411750716812]
機械翻訳参照に対してPrism+FTがより堅牢になることを示す。
これは、計量トレーニングの効果が、人間の判断との全体的な相関を改善する意図的な効果を超えることを示唆している。
論文 参考訳(メタデータ) (2023-12-01T12:15:58Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Difficulty-Aware Machine Translation Evaluation [19.973201669851626]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。
ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。
提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文 参考訳(メタデータ) (2021-07-30T02:45:36Z) - Automatic Machine Translation Evaluation in Many Languages via Zero-Shot
Paraphrasing [11.564158965143418]
我々は,機械翻訳評価の課題を,シーケンス・ツー・シーケンス・パラフレーズを用いたスコアリング機械翻訳出力の1つとして捉えた。
我々は,パラフレーズ処理をゼロショット翻訳タスクとして扱う多言語NMTシステムとして,パラフレーズを訓練することを提案する。
我々の手法は単純で直感的で、訓練には人間の判断を必要としない。
論文 参考訳(メタデータ) (2020-04-30T03:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。