論文の概要: The Translation Tax Is Not a Scalar: A Counterfactual Audit of English-Source Cue Inheritance in Chinese Multilingual Benchmarks
- arxiv url: http://arxiv.org/abs/2605.07093v1
- Date: Fri, 08 May 2026 01:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.711144
- Title: The Translation Tax Is Not a Scalar: A Counterfactual Audit of English-Source Cue Inheritance in Chinese Multilingual Benchmarks
- Title(参考訳): 翻訳税はスカラーではない:中国語の多言語ベンチマークにおける英語由来のキュー継承の反実的監査
- Authors: Zezheng Lin, Fengming Liu, Handi Li,
- Abstract要約: 翻訳税は、しばしばスカラーとして扱われる:翻訳されたベンチマークは、英語ソースの手がかりを保存することによってスコアをインフレさせると仮定される。
バックトランスレーションのギャップは小さく、フレキシブルであり、キュースコアのキャリブレーションはアイテムレベルの利得を予測しない。
我々は、セルごとのエビデンス、自然化プロトコル、人間QC、翻訳された多言語ベンチマーク論文の報告チェックリストをリリースする。
- 参考スコア(独自算出の注目度): 1.4839450468199458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Translation Tax is often treated as a scalar: translated benchmarks are assumed to inflate scores by preserving English-source cues. We audit this claim in an English-to-Chinese setting. Three proxy estimators disagree: back-translation gaps are small and parser-fragile; cue-score calibration does not predict item-level gains; and a six-model native-control comparison shows model-family rather than uniform benchmark effects. We add a same-item LLM-naturalization stress test that holds answer, options, and content fixed while rewriting Chinese surface form. After correcting a prompt-construction bug, this contrast no longer supports a model-family interaction, but it preserves a residue dose-response: high-residue items benefit while low-residue items do not. The result is not a single Translation Tax, but a set of estimator- and item-dependent validity risks. We release per-cell evidence, the naturalization protocol, human QC, and a reporting checklist for translated multilingual benchmark papers.
- Abstract(参考訳): 翻訳税は、しばしばスカラーとして扱われる:翻訳されたベンチマークは、英語ソースの手がかりを保存することによってスコアをインフレさせると仮定される。
私たちはこの主張を英語と中国語で監査する。
バックトランスレーションのギャップは小さく、パーサーのフランジであり、キュースコアのキャリブレーションはアイテムレベルのゲインを予測しない。
また,中国表面の形状を書き換える際に,回答,選択肢,内容を保持するLLM自然化ストレステストも追加する。
プロンプト-コンストラクションのバグを修正した後、このコントラストはもはやモデル-ファミリー相互作用をサポートしないが、残留量-応答を保ちます。
結果は、単一の翻訳税ではなく、推定者およびアイテムに依存した妥当性リスクのセットである。
我々は、セルごとのエビデンス、自然化プロトコル、人間QC、翻訳された多言語ベンチマーク論文の報告チェックリストをリリースする。
関連論文リスト
- XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics [64.77152900881724]
9つの翻訳方向をカバーする半自動構築データセットであるXQ-MEvalを提案する。
MQMで定義されたエラーを金の翻訳に自動的に注入し、信頼性のためにネイティブスピーカーによってフィルタリングし、エラーをマージして、制御可能な品質で擬似翻訳を生成する。
XQ-MEvalを用いて, 平均的判断と人的判断の矛盾を明らかにする。
論文 参考訳(メタデータ) (2026-04-16T12:27:10Z) - Plausibility as Commonsense Reasoning: Humans Succeed, Large Language Models Do not [0.0]
あいまいさ解消の過程で,大規模言語モデルが世界知識と統語的構造を人間的,構造に敏感な方法で統合するかどうかを検証した。
我々は、構文構成を固定し、両方の構文解析が実用的に可能であることを保証する曖昧な項目を構築する。
高速な強制選択理解実験では、人間は大きな、正確に指示された可視性効果を示す。
モデル全体では、可視性駆動のシフトは弱く、不安定で、逆転している。
論文 参考訳(メタデータ) (2026-04-06T16:27:06Z) - Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck [37.780081880731096]
大規模言語モデル(LLM)は多言語評価の標準となっているが、厳密な体系的翻訳バイアスを示す。
このバイアスは (i) 英語との潜在多様体アライメントと (ii) 言語間予測可能性との急激な相関に起因している。
このバイアスを軽減するために、我々は、最小限に十分な判断クリティカルな表現を学習する堅牢な微調整フレームワークであるDIBJudgeを提案する。
論文 参考訳(メタデータ) (2026-03-11T02:55:29Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。
ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:06:20Z) - Mismatching-Aware Unsupervised Translation Quality Estimation For
Low-Resource Languages [6.049660810617423]
XLMRScoreは、XLM-RoBERTa (XLMR)モデルで計算されたBERTScoreの言語間対応である。
WMT21QE共有タスクの4つの低リソース言語対に対して提案手法を評価する。
論文 参考訳(メタデータ) (2022-07-31T16:23:23Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。