論文の概要: Pitfalls and Outlooks in Using COMET
- arxiv url: http://arxiv.org/abs/2408.15366v3
- Date: Mon, 30 Sep 2024 13:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:13.897444
- Title: Pitfalls and Outlooks in Using COMET
- Title(参考訳): COMETにおける落とし穴と展望
- Authors: Vilém Zouhar, Pinzhen Chen, Tsz Kin Lam, Nikita Moghe, Barry Haddow,
- Abstract要約: COMETの指標は、人間の翻訳品質と強い相関関係にあることから、機械翻訳コミュニティの足跡をなしている。
COMETメトリックの3つの側面について検討する: 技術: 古いソフトウェアバージョンと計算精度; データ: 空コンテンツ, 言語ミスマッチ, テスト時の翻訳, 使用状況と報告。
ソフトウェアとモデル構成のためのシグネチャと適切な引用を生成するサックレットCOMETパッケージをリリースする。
- 参考スコア(独自算出の注目度): 22.016569792620295
- License:
- Abstract: The COMET metric has blazed a trail in the machine translation community, given its strong correlation with human judgements of translation quality. Its success stems from being a modified pre-trained multilingual model finetuned for quality assessment. However, it being a machine learning model also gives rise to a new set of pitfalls that may not be widely known. We investigate these unexpected behaviours from three aspects: 1) technical: obsolete software versions and compute precision; 2) data: empty content, language mismatch, and translationese at test time as well as distribution and domain biases in training; 3) usage and reporting: multi-reference support and model referencing in the literature. All of these problems imply that COMET scores are not comparable between papers or even technical setups and we put forward our perspective on fixing each issue. Furthermore, we release the sacreCOMET package that can generate a signature for the software and model configuration as well as an appropriate citation. The goal of this work is to help the community make more sound use of the COMET metric.
- Abstract(参考訳): COMETの基準は、翻訳品質の人間の判断と強い相関関係があることから、機械翻訳コミュニティの道筋を成している。
その成功は、品質評価のために微調整された事前訓練された多言語モデルであることに由来する。
しかし、機械学習モデルであることは、広く知られていないかもしれない新しい落とし穴を生じさせる。
我々はこれらの予期せぬ行動を3つの側面から調査する。
1) 技術: 時代遅れのソフトウェアバージョン及び計算精度
2) データは,テスト時の空のコンテンツ,言語ミスマッチ,翻訳文,及びトレーニングにおける分布及びドメインバイアスである。
3)使用状況と報告:文献におけるマルチリファレンスサポートとモデル参照。
これらの問題は、COMETのスコアが論文や技術的な設定に匹敵するものではないことを暗示しており、各問題の修正についての見解を述べています。
さらに,ソフトウェアとモデル構成のためのシグネチャと適切な引用を生成するサックレットCOMETパッケージをリリースする。
この作業の目標は、コミュニティがCOMETメトリックをよりうまく活用できるようにすることです。
関連論文リスト
- Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - BLEU, METEOR, BERTScore: Evaluation of Metrics Performance in Assessing
Critical Translation Errors in Sentiment-oriented Text [1.4213973379473654]
オンラインコンテンツの機械翻訳(MT)は、複数の言語で書かれた投稿の処理に一般的に使用される。
本稿では,機械翻訳の致命的誤りを検出するための自動品質指標の有効性を評価する。
我々は、感情クリティカルなエラーの検出をより堅牢にするために、自動メトリクスの微調整が必要であると結論付けている。
論文 参考訳(メタデータ) (2021-09-29T07:51:17Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Transfer Learning for Mining Feature Requests and Bug Reports from
Tweets and App Store Reviews [4.446419663487345]
既存のアプローチでは、リコールと許容精度の高い機能要求やバグレポートの検出に失敗している。
我々は単言語と多言語の両方のBERTモデルを訓練し、その性能を最先端の手法と比較する。
論文 参考訳(メタデータ) (2021-08-02T06:51:13Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Patching as Translation: the Data and the Metaphor [18.22949296398319]
ソフトウェアパッチは言語翻訳に似ている」ことを示す。
私たちは、経験的な発見とソフトウェア開発の一般的な知識に基づいて、モデル設計に対するより原則化されたアプローチが、よりよいソリューションをもたらすことを示しています。
このようなモデルを“概念の保護(proof-of-concept)”ツールとして実装し、それらが研究対象の翻訳ベースアーキテクチャと根本的に異なる、より効果的な方法で振る舞うことを実証的に確認します。
論文 参考訳(メタデータ) (2020-08-24T21:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。