Fugu-MT 論文翻訳(概要): Understanding the Impact of UGC Specificities on Translation Quality

論文の概要: Understanding the Impact of UGC Specificities on Translation Quality

arxiv url: http://arxiv.org/abs/2110.12551v1
Date: Sun, 24 Oct 2021 23:25:29 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-27 08:36:07.753258
Title: Understanding the Impact of UGC Specificities on Translation Quality
Title（参考訳）: UGCの特長が翻訳品質に及ぼす影響を理解する
Authors: Jos\'e Carlos Rosales N\'u\~nez, Djam\'e Seddah, Guillaume Wisniewski
Abstract要約: 本研究は,ユーザ生成コンテンツ自動翻訳の評価について批判的に考察する。テストセットの標準メトリックを使用した平均ケースパフォーマンスの測定は、翻訳品質の信頼性の高いイメージを提供するには程遠い。
参考スコア（独自算出の注目度）: 6.123324869194193
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work takes a critical look at the evaluation of user-generated content automatic translation, the well-known specificities of which raise many challenges for MT. Our analyses show that measuring the average-case performance using a standard metric on a UGC test set falls far short of giving a reliable image of the UGC translation quality. That is why we introduce a new data set for the evaluation of UGC translation in which UGC specificities have been manually annotated using a fine-grained typology. Using this data set, we conduct several experiments to measure the impact of different kinds of UGC specificities on translation quality, more precisely than previously possible.
Abstract（参考訳）: 本研究は,ユーザ生成コンテンツ自動翻訳の評価について批判的な考察を行い,その特徴がMTの課題を多く提起している。本研究では,UGCテストセットの標準基準値を用いた平均ケース性能の測定が,UGC翻訳品質の信頼性の高い画像よりもはるかに低いことを示す。そこで我々は,UGC翻訳の評価のための新しいデータセットを導入し,UGCの特異性を微粒なタイポロジーを用いて手動で注釈付けした。このデータセットを用いて, 従来よりも精度良く, 異なる種類のucc特異性が翻訳品質に与える影響を計測する実験を行った。

関連論文リスト

StaICC: Standardized Evaluation for Classification Task in In-context Learning [3.0531121420837226]
本稿では,テキスト内分類のための標準化された簡易評価ツールキット(StaICC)を提案する。通常の分類タスクでは、StaICC-Normalを提供し、10個の広く使われているデータセットを選択し、一定の形式でプロンプトを生成する。また,複数の側面からICLを診断するためのサブベンチマーク StaICC-Diag も提供し,より堅牢な推論処理を目指している。
論文参考訳（メタデータ） (2025-01-27T00:05:12Z)
Are Large Language Models State-of-the-art Quality Estimators for Machine Translation of User-generated Content? [6.213698466889738]
本稿では,ユーザ生成コンテンツ(UGC)の機械翻訳において,大規模言語モデル(LLM)が最先端の品質評価手法であるかどうかを検討する。既存の感情関連データセットに人為的アノテートエラーを付加し,多次元品質指標に基づく品質評価スコアを算出した。
論文参考訳（メタデータ） (2024-10-08T20:16:59Z)
Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文参考訳（メタデータ） (2024-10-07T16:42:10Z)
A Multi-task Learning Framework for Evaluating Machine Translation of Emotion-loaded User-generated Content [6.213698466889738]
ユーザ生成コンテンツ(UGC)の機械翻訳は、スラング、感情、皮肉や皮肉といった文学的デバイスを扱うなど、ユニークな課題を生んでいる。感情ラベルと人手による翻訳誤りを含む感情関連データセットを利用する。文レベル評価スコアと単語レベルラベルで拡張し、文レベルと単語レベルの翻訳評価と感情分類に適したデータセットを作成する。
論文参考訳（メタデータ） (2024-10-04T09:49:57Z)
Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文参考訳（メタデータ） (2024-07-03T17:04:17Z)
Guiding In-Context Learning of LLMs through Quality Estimation for Machine Translation [0.846600473226587]
本稿では、ドメイン固有品質推定(QE)によって導かれる探索アルゴリズムに依存する、文脈内学習(ICL)の新しい手法を提案する。予備学習言語モデル(PLM)の微調整と比較すると,既存のICL法と翻訳性能は大幅に向上した。
論文参考訳（メタデータ） (2024-06-12T07:49:36Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
Rethink about the Word-level Quality Estimation for Machine Translation from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文参考訳（メタデータ） (2022-09-13T02:37:12Z)
BLEU, METEOR, BERTScore: Evaluation of Metrics Performance in Assessing Critical Translation Errors in Sentiment-oriented Text [1.4213973379473654]
オンラインコンテンツの機械翻訳(MT)は、複数の言語で書かれた投稿の処理に一般的に使用される。本稿では,機械翻訳の致命的誤りを検出するための自動品質指標の有効性を評価する。我々は、感情クリティカルなエラーの検出をより堅牢にするために、自動メトリクスの微調整が必要であると結論付けている。
論文参考訳（メタデータ） (2021-09-29T07:51:17Z)
Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文参考訳（メタデータ） (2020-10-01T15:33:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。