論文の概要: Translation Entropy: A Statistical Framework for Evaluating Translation Systems
- arxiv url: http://arxiv.org/abs/2511.13180v1
- Date: Mon, 17 Nov 2025 09:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.102398
- Title: Translation Entropy: A Statistical Framework for Evaluating Translation Systems
- Title(参考訳): 翻訳エントロピー:翻訳システム評価のための統計フレームワーク
- Authors: Ronit D. Gross, Yanir Harel, Ido Kanter,
- Abstract要約: 文語の翻訳は紀元前3世紀から知られているが、その必要性は情報時代においてますます一般的になっている。
一つの言語のエントロピーが未だに不明であるため、パフォーマンスを評価するための定量的な客観的手法は存在しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The translation of written language has been known since the 3rd century BC; however, its necessity has become increasingly common in the information age. Today, many translators exist, based on encoder-decoder deep architectures, nevertheless, no quantitative objective methods are available to assess their performance, likely because the entropy of even a single language remains unknown. This study presents a quantitative method for estimating translation entropy, with the following key finding. Given a translator, several sentences that differ by only one selected token of a given pivot sentence yield identical translations. Analyzing the statistics of this phenomenon across an ensemble of such sentences, consisting each of a pivot selected token, yields the probabilities of replacing this specific token with others while preserving the translation. These probabilities constitute the entropy of the selected token, and the average across all selected pivot tokens provides an estimate of the translator's overall translation entropy, which is enhanced along the decoder blocks. This entropic measure allows for the quantitative ranking of several publicly available translators and reveals whether mutual translation entropy is symmetric. Extending the proposed method to include the replacement of two tokens in a given pivot sentence demonstrates a multiplicative effect, where translation degeneracy is proportional to the product of the degeneracies of the two tokens. These findings establish translation entropy as a measurable property and objective benchmarking of artificial translators. Results are based on MarianMT, T5-Base and NLLB-200 translators.
- Abstract(参考訳): 文語の翻訳は紀元前3世紀から知られているが、その必要性は情報時代においてますます一般的になっている。
今日では、エンコーダ・デコーダのディープアーキテクチャに基づく多くの翻訳者が存在しているが、その性能を評価するための定量的な客観的手法は存在しない。
本研究では,翻訳エントロピーを定量的に推定する方法を提案する。
翻訳者が与えられたとき、与えられたピボット文の1つの選択されたトークンによって異なるいくつかの文は同一の翻訳を生成する。
この現象の統計をこれらの文のアンサンブルで分析し、それぞれの選択されたトークンからなり、翻訳を保存しながら、この特定のトークンを他のトークンに置き換える確率が生じる。
これらの確率は、選択されたトークンのエントロピーを構成し、選択されたすべてのピボットトークンの平均は、デコーダブロックに沿って拡張されたトランスレータの全体的な翻訳エントロピーを推定する。
このエントロピー測度は、いくつかの公用トランスレータの定量的ランキングを可能にし、相互翻訳エントロピーが対称であるかどうかを明らかにする。
提案手法を拡張して、与えられたピボット文に2つのトークンを置き換えることにより、変換縮退が2つのトークンの退化の積に比例する乗法効果を示す。
これらの結果から, 翻訳エントロピーは, 人工翻訳者の客観的な評価, 測定可能な性質として確立された。
結果は、MarianMT、T5-Base、NLLB-200トランスレータに基づいている。
関連論文リスト
- Conditional Unigram Tokenization with Parallel Data [1.8416014644193066]
並列データからソース言語トークンにターゲットトークン確率を条件付けすることでユニグラムトークン化を拡張する新しい手法である条件付きユニグラムトークン化を導入する。
我々は、異なるファミリーとリソースレベルにわたる4つの言語対でトークン化器を評価した。
論文 参考訳(メタデータ) (2025-07-10T14:53:59Z) - BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。
ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:06:20Z) - Principled Paraphrase Generation with Parallel Corpora [52.78059089341062]
ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
論文 参考訳(メタデータ) (2022-05-24T17:22:42Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。