Fugu-MT 論文翻訳(概要): Translationese-index: Using Likelihood Ratios for Graded and Generalizable Measurement of Translationese

論文の概要: Translationese-index: Using Likelihood Ratios for Graded and Generalizable Measurement of Translationese

arxiv url: http://arxiv.org/abs/2507.12260v1
Date: Wed, 16 Jul 2025 14:06:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-17 19:00:11.423406
Title: Translationese-index: Using Likelihood Ratios for Graded and Generalizable Measurement of Translationese
Title（参考訳）: 訳語インデックス:次数および一般化可能な翻訳語測定のための類似率を用いた翻訳語インデックス
Authors: Yikang Liu, Wanyang Zhang, Yiming Wang, Jialong Tang, Pei Zhang, Baosong Yang, Fei Huang, Rui Wang, Hai Hu,
Abstract要約: 翻訳用最初の定量的尺度である翻訳用インデックス(T-index)を提案する。 T-インデックスは2つの対照的な微調整言語モデル(LM)の確率比から計算される
参考スコア（独自算出の注目度）: 42.05047074217606
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose the first quantitative measure for translationese -- the translationese-index (T-index) for graded and generalizable measurement of translationese, computed from the likelihood ratios of two contrastively fine-tuned language models (LMs). We use a synthesized dataset and a dataset with translations in the wild to evaluate T-index's generalizability in cross-domain settings and its validity against human judgments. Our results show that T-index is both robust and efficient. T-index scored by two 0.5B LMs fine-tuned on only 1-5k pairs of synthetic data can well capture translationese in the wild. We find that the relative differences in T-indices between translations can well predict pairwise translationese annotations obtained from human annotators; and the absolute values of T-indices correlate well with human ratings of degrees of translationese (Pearson's $r = 0.568$). Additionally, the correlation between T-index and existing machine translation (MT) quality estimation (QE) metrics such as BLEU and COMET is low, suggesting that T-index is not covered by these metrics and can serve as a complementary metric in MT QE.
Abstract（参考訳）: 本稿では,2つの対照的に微調整された言語モデル (LM) の確率比から計算した翻訳文の最初の定量的尺度である,等級および一般化可能な翻訳文の測定のための翻訳文インデックス (T-index) を提案する。我々は,T-インデックスのクロスドメイン設定における一般化可能性とその人的判断に対する妥当性を評価するために,合成データセットと野生の翻訳付きデータセットを使用する。以上の結果から,T-indexは堅牢かつ効率的であることが示唆された。 1-5kの合成データに微調整された2つの0.5B LMで得られたT-インデックスは、野生の翻訳データをうまく捉えることができる。訳語間のT指標の相対的な差異は、人間のアノテーションから得られるペアワイズな翻訳アノテーションを適切に予測でき、T指標の絶対値は、翻訳度の人間の評価とよく相関している(ピアソンの$r = 0.568$)。さらに、T-インデックスとBLEUやCOMETのような既存の機械翻訳(MT)品質推定(QE)指標との相関は低く、T-インデックスはこれらの指標によってカバーされておらず、MT QEの補完的指標として機能する可能性があることを示唆している。

関連論文リスト

An Analysis on Automated Metrics for Evaluating Japanese-English Chat Translation [0.0]
チャット翻訳におけるNMTモデルのランク付けには、どのモデルが他のモデルより優れているかを判断する上で、すべての指標が一貫したように見える。一方、ニューラルベースメトリクスは従来のメトリクスよりも優れており、COMETはチャット翻訳における人間の注釈付きスコアとの相関が最も高い。
論文参考訳（メタデータ） (2024-12-24T05:54:40Z)
The Comparison of Translationese in Machine Translation and Human Transation in terms of Translation Relations [7.776258153133857]
この研究は2つのパラレルコーパスを用いており、それぞれが9つのジャンルにまたがって、同じソーステキストで、1つはNMTによって翻訳され、もう1つは人間によって翻訳された。以上の結果から,NMTはHTよりも翻訳に大きく依存していることが示唆された。
論文参考訳（メタデータ） (2024-03-27T19:12:20Z)
Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文参考訳（メタデータ） (2023-08-06T14:49:26Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
DEMETR: Diagnosing Evaluation Metrics for Translation [21.25704103403547]
我々は、英語31K例の診断データセットであるDEMETRをリリースする。学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
論文参考訳（メタデータ） (2022-10-25T03:25:44Z)
Rethink about the Word-level Quality Estimation for Machine Translation from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文参考訳（メタデータ） (2022-09-13T02:37:12Z)
NMTScore: A Multilingual Analysis of Translation-based Text Similarity Measures [42.46681912294797]
我々は多言語NMTの共通フレームワークにおける翻訳に基づく類似度尺度を解析する。文の埋め込みなどのベースラインと比較して、翻訳に基づく尺度はパラフレーズの識別において競争力があることが証明されている。措置は人間の判断と相対的に高い相関を示す。
論文参考訳（メタデータ） (2022-04-28T17:57:17Z)
Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文参考訳（メタデータ） (2020-11-26T21:09:38Z)
On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文参考訳（メタデータ） (2020-05-03T22:10:23Z)
Revisiting Round-Trip Translation for Quality Estimation [0.0]
品質評価(QE)とは、人間が翻訳した参照を使わずに翻訳の質を自動的に評価するタスクである。本稿では,RTTベースのQEにセマンティック埋め込みを適用する。提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。
論文参考訳（メタデータ） (2020-04-29T03:20:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。