論文の概要: No Translation Needed: Forecasting Quality from Fertility and Metadata
- arxiv url: http://arxiv.org/abs/2509.05425v1
- Date: Fri, 05 Sep 2025 18:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.503909
- Title: No Translation Needed: Forecasting Quality from Fertility and Metadata
- Title(参考訳): 翻訳不要:豊かさとメタデータから品質を予測
- Authors: Jessica M. Lundin, Ada Zhang, David Adelani, Cody Carroll,
- Abstract要約: 翻訳システム自体を動作させることなく、驚くべき精度で翻訳品質を予測できることを示す。
203言語にまたがるGPT-4o翻訳のChrFスコアを予測できるのは,少数の特徴,トークンの肥大率,トークン数,基本言語メタデータのみである。
- 参考スコア(独自算出の注目度): 1.053037289357234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that translation quality can be predicted with surprising accuracy \textit{without ever running the translation system itself}. Using only a handful of features, token fertility ratios, token counts, and basic linguistic metadata (language family, script, and region), we can forecast ChrF scores for GPT-4o translations across 203 languages in the FLORES-200 benchmark. Gradient boosting models achieve favorable performance ($R^{2}=0.66$ for XX$\rightarrow$English and $R^{2}=0.72$ for English$\rightarrow$XX). Feature importance analyses reveal that typological factors dominate predictions into English, while fertility plays a larger role for translations into diverse target languages. These findings suggest that translation quality is shaped by both token-level fertility and broader linguistic typology, offering new insights for multilingual evaluation and quality estimation.
- Abstract(参考訳): 本稿では,翻訳システム自体を動作させることなく,驚くほどの精度で翻訳品質を予測可能であることを示す。
FLORES-200ベンチマークでは,少数の機能,トークンの肥大率,トークン数,基本言語メタデータ(言語族,スクリプト,リージョン)のみを用いて,203言語にわたるGPT-4o翻訳のChrFスコアを予測できる。
R^{2}=0.66$ for XX$\rightarrow$ English and $R^{2}=0.72$ for English$\rightarrow$XX)。
特徴的重要度分析では、型的要因が英語への予測を支配しているのに対し、出生率は多様な対象言語への翻訳においてより大きな役割を果たすことが明らかになった。
これらの結果から, 翻訳品質はトークンレベルの肥大度と言語型学の両面から形成され, 多言語的評価と品質評価のための新たな知見が得られたことが示唆された。
関連論文リスト
- The Token Tax: Systematic Bias in Multilingual Tokenization [0.8820808252713569]
トークン化の非効率性は、形態的に複雑な低リソース言語に構造上の欠点を課す。
出生率(トークン/ワード)が精度を確実に予測できることが示される。
また、推論モデル(DeepSeek, o1)は非推論のピアよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-09-05T20:20:51Z) - Information Loss in LLMs' Multilingual Translation: The Role of Training Data, Language Proximity, and Language Family [0.9422186097220215]
本研究は,多言語翻訳における学習データ,言語親和性,言語族が情報損失に与える影響を系統的に検討する。
GPT-4とLlama 2の2つの大言語モデルについて,ラウンドトリップ翻訳により評価した。
論文 参考訳(メタデータ) (2025-06-29T17:21:05Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Verdi: Quality Estimation and Error Detection for Bilingual [23.485380293716272]
Verdiはバイリンガルコーパスのための単語レベルおよび文レベルの後編集作業推定のための新しいフレームワークである。
バイリンガルコーパスの対称性を活用し,NMT予測器にモデルレベル二重学習を適用した。
我々の手法は競争の勝者を圧倒し、他の基準法よりも大きなマージンで上回る。
論文 参考訳(メタデータ) (2021-05-31T11:04:13Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。