論文の概要: Translationese-index: Using Likelihood Ratios for Graded and Generalizable Measurement of Translationese
- arxiv url: http://arxiv.org/abs/2507.12260v2
- Date: Fri, 19 Sep 2025 15:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:07.148571
- Title: Translationese-index: Using Likelihood Ratios for Graded and Generalizable Measurement of Translationese
- Title(参考訳): 訳語インデックス:次数および一般化可能な翻訳語測定のための類似率を用いた翻訳語インデックス
- Authors: Yikang Liu, Wanyang Zhang, Yiming Wang, Jialong Tang, Pei Zhang, Baosong Yang, Fei Huang, Rui Wang, Hai Hu,
- Abstract要約: 訳語の最初の尺度である翻訳語-インデックス(T-index)を提案する。
T-インデックスは2つの対照的な微調整言語モデル(LM)の確率比から計算される
- 参考スコア(独自算出の注目度): 37.44429709909661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translationese refers to linguistic properties that usually occur in translated texts. Previous works study translationese by framing it as a binary classification between original texts and translated texts. In this paper, we argue that translationese should be graded instead of binary and propose the first measure for translationese -- the translationese-index (T-index), computed from the likelihood ratios of two contrastively fine-tuned language models (LMs). We use synthesized translations and translations in the wild to evaluate T-index's generalizability in cross-domain settings and its validity against human judgments. Our results show that T-index can generalize to unseen genres, authors, and language pairs. Moreover, T-index computed using two 0.5B LMs fine-tuned on only 1-5k pairs of synthetic data can effectively capture translationese, as demonstrated by alignment with human pointwise ratings and pairwise judgments. Additionally, the correlation between T-index and existing machine translation (MT) quality estimation (QE) metrics such as BLEU and COMET is low, suggesting that T-index is not covered by these metrics and can serve as a complementary metric in MT QE.
- Abstract(参考訳): 翻訳文(英: translationese)は、通常、翻訳されたテキストで発生する言語的特性を指す。
それまでの著作では、原文と翻訳されたテキストのバイナリ分類として記述することで、翻訳学を研究していた。
本稿では,2つの言語モデル (LM) の確率比から計算した翻訳文(T-index, T-index, T-index, T-index, T-index, T-index, T-index, T-index, T-index, T-index, T-index, T-index, T-index, T-index, T-index, T-index) について述べる。
我々は、T-インデックスのクロスドメイン設定における一般化可能性とその人的判断に対する妥当性を評価するために、野生における合成翻訳と翻訳を用いている。
以上の結果から,T-インデクスは未知のジャンル,著者,言語対に一般化可能であることが示唆された。
さらに、1-5kの合成データのみに微調整された2つの0.5B LMを用いて計算されたTインデックスは、人間のポイントワイド評価やペアワイド判定と整合して示されるように、翻訳を効果的に捉えることができる。
さらに、T-インデックスとBLEUやCOMETのような既存の機械翻訳(MT)品質推定(QE)指標との相関は低く、T-インデックスはこれらの指標によってカバーされておらず、MT QEの補完的指標として機能する可能性があることを示唆している。
関連論文リスト
- An Analysis on Automated Metrics for Evaluating Japanese-English Chat Translation [0.0]
チャット翻訳におけるNMTモデルのランク付けには、どのモデルが他のモデルより優れているかを判断する上で、すべての指標が一貫したように見える。
一方、ニューラルベースメトリクスは従来のメトリクスよりも優れており、COMETはチャット翻訳における人間の注釈付きスコアとの相関が最も高い。
論文 参考訳(メタデータ) (2024-12-24T05:54:40Z) - The Comparison of Translationese in Machine Translation and Human Transation in terms of Translation Relations [7.776258153133857]
この研究は2つのパラレルコーパスを用いており、それぞれが9つのジャンルにまたがって、同じソーステキストで、1つはNMTによって翻訳され、もう1つは人間によって翻訳された。
以上の結果から,NMTはHTよりも翻訳に大きく依存していることが示唆された。
論文 参考訳(メタデータ) (2024-03-27T19:12:20Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - DEMETR: Diagnosing Evaluation Metrics for Translation [21.25704103403547]
我々は、英語31K例の診断データセットであるDEMETRをリリースする。
学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-25T03:25:44Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - NMTScore: A Multilingual Analysis of Translation-based Text Similarity
Measures [42.46681912294797]
我々は多言語NMTの共通フレームワークにおける翻訳に基づく類似度尺度を解析する。
文の埋め込みなどのベースラインと比較して、翻訳に基づく尺度はパラフレーズの識別において競争力があることが証明されている。
措置は人間の判断と相対的に高い相関を示す。
論文 参考訳(メタデータ) (2022-04-28T17:57:17Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Revisiting Round-Trip Translation for Quality Estimation [0.0]
品質評価(QE)とは、人間が翻訳した参照を使わずに翻訳の質を自動的に評価するタスクである。
本稿では,RTTベースのQEにセマンティック埋め込みを適用する。
提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。
論文 参考訳(メタデータ) (2020-04-29T03:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。