論文の概要: When the Gold Standard isn't Necessarily Standard: Challenges of Evaluating the Translation of User-Generated Content
- arxiv url: http://arxiv.org/abs/2512.17738v1
- Date: Fri, 19 Dec 2025 16:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.476757
- Title: When the Gold Standard isn't Necessarily Standard: Challenges of Evaluating the Translation of User-Generated Content
- Title(参考訳): 金本位制が必須基準でないとき--ユーザ生成コンテンツの翻訳評価の課題
- Authors: Lydia Nishimwe, Benoît Sagot, Rachel Bawden,
- Abstract要約: 4つのデータセットの人間翻訳ガイドラインについて検討する。
我々は、12の非標準現象と5つの翻訳行動の分類法を導出する。
我々は、作成中の明確なガイドラインと、制御可能なガイドライン対応評価フレームワークの開発を求めている。
- 参考スコア(独自算出の注目度): 23.830040496621965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User-generated content (UGC) is characterised by frequent use of non-standard language, from spelling errors to expressive choices such as slang, character repetitions, and emojis. This makes evaluating UGC translation particularly challenging: what counts as a "good" translation depends on the level of standardness desired in the output. To explore this, we examine the human translation guidelines of four UGC datasets, and derive a taxonomy of twelve non-standard phenomena and five translation actions (NORMALISE, COPY, TRANSFER, OMIT, CENSOR). Our analysis reveals notable differences in how UGC is treated, resulting in a spectrum of standardness in reference translations. Through a case study on large language models (LLMs), we show that translation scores are highly sensitive to prompts with explicit translation instructions for UGC, and that they improve when these align with the dataset's guidelines. We argue that when preserving UGC style is important, fair evaluation requires both models and metrics to be aware of translation guidelines. Finally, we call for clear guidelines during dataset creation and for the development of controllable, guideline-aware evaluation frameworks for UGC translation.
- Abstract(参考訳): ユーザ生成コンテンツ(UGC)は、スペルエラーからスラング、文字反復、絵文字などの表現的な選択まで、非標準言語の頻繁な使用によって特徴付けられる。
これにより、UGC翻訳の評価が特に困難になる:「良い」翻訳とみなすものは、出力で望まれる標準性のレベルに依存する。
そこで本研究では,4つのUGCデータセットの人間翻訳ガイドラインを検証し,12の非標準現象と5つの翻訳行動(NORMALISE,COPY,Transfer,OMIT,CENSOR)の分類を導出した。
UGCの処理方法に顕著な違いがみられ, 基準翻訳における標準化のスペクトルが得られた。
大規模言語モデル (LLMs) のケーススタディを通じて, 翻訳スコアはUGCの明示的な翻訳命令によるプロンプトに非常に敏感であり, データセットのガイドラインに合わせると改善されることを示す。
UGCスタイルを保存することは重要であると我々は主張するが、公正な評価にはモデルとメトリクスの両方が翻訳ガイドラインに気付く必要がある。
最後に、データセット作成時の明確なガイドラインと、UGC翻訳のための制御可能なガイドライン対応評価フレームワークの開発を求める。
関連論文リスト
- Specification-Aware Machine Translation and Evaluation for Purpose Alignment [10.50113943900077]
専門的な翻訳において仕様が重要な理由に関する理論的根拠を提供するとともに,仕様対応機械翻訳(MT)の実装のための実践的ガイドを提供する。
我々は、専門家のエラー分析、ユーザの嗜好ランキング、自動測定値を用いて、人文翻訳と大規模言語モデル(LLM)からのプロンプトベースのアウトプットを含む5つの翻訳タイプを比較した。
その結果,仕様書による翻訳は人間の評価において人文翻訳よりも一貫して優れており,知覚と期待される品質のギャップが強調された。
論文 参考訳(メタデータ) (2025-09-22T10:50:37Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
合成QEデータの分散シフトを緩和する新しいフレームワークであるDCSQEを紹介する。
DCSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。
実験により、DCSQEは教師なし設定と教師なし設定の両方でSOTAベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-27T10:11:53Z) - Optimizing Machine Translation through Prompt Engineering: An
Investigation into ChatGPT's Customizability [0.0]
この研究は、ChatGPTのような大規模言語モデルに適切なプロンプトが組み込まれれば、柔軟な翻訳が可能になることを明らかにしている。
この研究は、特定の条件を満たす翻訳を生成するためにプロンプトを使用すると、翻訳品質の変化を精査する。
論文 参考訳(メタデータ) (2023-08-02T19:11:04Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Understanding the Impact of UGC Specificities on Translation Quality [6.123324869194193]
本研究は,ユーザ生成コンテンツ自動翻訳の評価について批判的に考察する。
テストセットの標準メトリックを使用した平均ケースパフォーマンスの測定は、翻訳品質の信頼性の高いイメージを提供するには程遠い。
論文 参考訳(メタデータ) (2021-10-24T23:25:29Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。