論文の概要: Simpson's Paradox and the Accuracy-Fluency Tradeoff in Translation
- arxiv url: http://arxiv.org/abs/2402.12690v2
- Date: Mon, 10 Jun 2024 05:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:23:27.628987
- Title: Simpson's Paradox and the Accuracy-Fluency Tradeoff in Translation
- Title(参考訳): シンプソンのパラドックスと翻訳における精度・周波数トレードオフ
- Authors: Zheng Wei Lim, Ekaterina Vylomova, Trevor Cohn, Charles Kemp,
- Abstract要約: 優れた翻訳は、ソースに忠実であり、対象言語の規範を尊重するべきである。
精度と流布度はコーパスのレベルで正の相関を示すが,個々のソースセグメントのレベルではトレードオフを示す。
- 参考スコア(独自算出の注目度): 30.036747251603668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A good translation should be faithful to the source and should respect the norms of the target language. We address a theoretical puzzle about the relationship between these objectives. On one hand, intuition and some prior work suggest that accuracy and fluency should trade off against each other, and that capturing every detail of the source can only be achieved at the cost of fluency. On the other hand, quality assessment researchers often suggest that accuracy and fluency are highly correlated and difficult for human raters to distinguish (Callison-Burch et al., 2007). We show that the tension between these views is an instance of Simpson's paradox, and that accuracy and fluency are positively correlated at the level of the corpus but trade off at the level of individual source segments. We further suggest that the relationship between accuracy and fluency is best evaluated at the segment (or sentence) level, and that the trade off between these dimensions has implications both for assessing translation quality and developing improved MT systems.
- Abstract(参考訳): 優れた翻訳はソースに忠実であり、ターゲット言語の規範を尊重すべきである。
これらの目的間の関係に関する理論的パズルに対処する。
一方、直観といくつかの先行研究は、正確さと流布度は互いにトレードオフすべきであり、ソースのすべての詳細を捉えることは、流布コストでしか達成できないことを示唆している。
一方, 品質評価研究者は, 精度と流布度は高い相関関係にあり, 識別が難しいことをしばしば示唆している(Callison-Burch et al , 2007)。
これらの見方の緊張はシンプソンのパラドックスの例であり、精度と流布度はコーパスのレベルで正の相関を示すが、個々のソースセグメントのレベルでは引き離されることを示す。
さらに,精度と流布度の関係をセグメント(文)レベルで最もよく評価することが示唆され,これらの次元間のトレードオフは翻訳品質の評価と改良されたMTシステムの開発の両方に影響を及ぼす。
関連論文リスト
- Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation [0.9576327614980397]
本研究では,人間の評価と相関関係を解析することにより,同時解釈評価における自動メトリクスの信頼性を評価することを目的とする。
ベンチマークでは,言語専門家による人間の評価を用いて,文の埋め込みと大規模言語モデルとの相関性を評価する。
その結果, GPTモデル, 特に直接的プロンプトを用いた GPT-3.5 は, ソーステキストとターゲットテキストのセマンティックな類似性の観点から, 人間の判断と最強の相関を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-14T14:47:19Z) - Can Automatic Metrics Assess High-Quality Translations? [28.407966066693334]
現在のメトリクスは、翻訳品質の微妙な違いに敏感であることを示す。
この効果は、品質が高く、代替品間のばらつきが低い場合に最も顕著である。
MQMフレームワークを金の標準として使用することにより、現在のメトリクスが人間によってマークされた誤りのない翻訳を識別する能力を体系的にストレステストする。
論文 参考訳(メタデータ) (2024-05-28T16:44:02Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Iterative Translation Refinement with Large Language Models [25.90607157524168]
本稿では,翻訳を自己修正するために,大規模言語モデルを反復的に提案する。
また,評価における課題と,人間のパフォーマンスと翻訳との関係についても論じる。
論文 参考訳(メタデータ) (2023-06-06T16:51:03Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - Zero-shot Faithful Factual Error Correction [53.121642212060536]
事実の誤りを忠実に訂正することは、テキストの知識基盤の整合性を維持し、シーケンス・ツー・シーケンス・モデルにおける幻覚を防ぐために重要である。
提案するゼロショットフレームワークは,入力クレームに関する質問を定式化し,与えられたエビデンスにおける正しい回答を求め,そのエビデンスとの整合性に基づいて各補正の忠実さを評価する。
論文 参考訳(メタデータ) (2023-05-13T18:55:20Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment
Analysis [56.84237932819403]
本稿では,OODの高次一般化に対するテキストモダリティの悪影響を推定・緩和することを目的とする。
そこで本研究では,マルチモーダル感情分析のためのモデルに依存しない反現実的フレームワークを考案した。
論文 参考訳(メタデータ) (2022-07-24T03:57:40Z) - Understanding and Mitigating the Uncertainty in Zero-Shot Translation [66.49354195238789]
ゼロショット翻訳の不確実性の観点から、オフターゲット問題を理解し、緩和することを目的としている。
翻訳出力とモデル信頼度を慎重に調べることで、ターゲット外問題の原因となる2つの不確実性を特定する。
そこで本研究では,モデルトレーニングのためのトレーニングデータを認知するための2つの軽量かつ補完的なアプローチを提案し,推論におけるオフターゲット言語の語彙を隠蔽する。
論文 参考訳(メタデータ) (2022-05-20T10:29:46Z) - Costs and Benefits of Wasserstein Fair Regression [11.134279147254361]
本稿では,レグレッション・セッティングにおける統計的パリティと精度の相違点を特徴付ける。
我々の下限はシャープでアルゴリズムに依存しておらず、単純な解釈を許している。
我々は,表現学習のレンズを用いて,公正回帰のための実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-16T14:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。