論文の概要: Simpson's Paradox and the Accuracy-Fluency Tradeoff in Translation
- arxiv url: http://arxiv.org/abs/2402.12690v1
- Date: Tue, 20 Feb 2024 03:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 17:24:40.875694
- Title: Simpson's Paradox and the Accuracy-Fluency Tradeoff in Translation
- Title(参考訳): シンプソンのパラドックスと翻訳における精度・周波数トレードオフ
- Authors: Zheng Wei Lim, Ekaterina Vylomova, Trevor Cohn and Charles Kemp
- Abstract要約: 優れた翻訳は、ソースに忠実であり、対象言語の規範を尊重するべきである。
精度と流布度はコーパスのレベルで正の相関を示すが,個々のソースセグメントのレベルではトレードオフを示す。
- 参考スコア(独自算出の注目度): 32.812988547166995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A good translation should be faithful to the source and should respect the
norms of the target language. We address a theoretical puzzle about the
relationship between these objectives. On one hand, intuition and some prior
work suggest that accuracy and fluency should trade off against each other, and
that capturing every detail of the source can only be achieved at the cost of
fluency. On the other hand, quality assessment researchers often suggest that
accuracy and fluency are highly correlated and difficult for human raters to
distinguish (Callison-Burch et al. 2007). We show that the tension between
these views is an instance of Simpson's paradox, and that accuracy and fluency
are positively correlated at the level of the corpus but trade off at the level
of individual source segments. We further suggest that the relationship between
accuracy and fluency is best evaluated at the segment (or sentence) level, and
that the trade off between these dimensions has implications both for assessing
translation quality and developing improved MT systems.
- Abstract(参考訳): 優れた翻訳はソースに忠実であり、ターゲット言語の規範を尊重すべきである。
これらの目的間の関係に関する理論的パズルに対処する。
一方、直観といくつかの先行研究は、正確さとフルエンシは互いにトレードオフすべきであり、ソースのすべての詳細を取得することはフルエンシのコストでのみ達成できることを示唆している。
一方, 品質評価研究者は, 精度と流布度は高い相関関係にあり, 識別が難しいことをしばしば示唆している(Callison-Burch et al. 2007)。
これらの見方の緊張はシンプソンのパラドックスの例であり、精度と流布度はコーパスのレベルで正の相関を示すが、個々のソースセグメントのレベルでは引き離されることを示す。
さらに,精度と流布度の関係をセグメント(文)レベルで最もよく評価することが示唆され,これらの次元間のトレードオフは翻訳品質の評価と改良されたMTシステムの開発の両方に影響を及ぼす。
関連論文リスト
- Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation [0.9576327614980397]
本研究では,人間の評価と相関関係を解析することにより,同時解釈評価における自動メトリクスの信頼性を評価することを目的とする。
ベンチマークでは,言語専門家による人間の評価を用いて,文の埋め込みと大規模言語モデルとの相関性を評価する。
その結果, GPTモデル, 特に直接的プロンプトを用いた GPT-3.5 は, ソーステキストとターゲットテキストのセマンティックな類似性の観点から, 人間の判断と最強の相関を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-14T14:47:19Z) - Can Automatic Metrics Assess High-Quality Translations? [28.407966066693334]
現在のメトリクスは、翻訳品質の微妙な違いに敏感であることを示す。
この効果は、品質が高く、代替品間のばらつきが低い場合に最も顕著である。
MQMフレームワークを金の標準として使用することにより、現在のメトリクスが人間によってマークされた誤りのない翻訳を識別する能力を体系的にストレステストする。
論文 参考訳(メタデータ) (2024-05-28T16:44:02Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Iterative Translation Refinement with Large Language Models [25.90607157524168]
本稿では,翻訳を自己修正するために,大規模言語モデルを反復的に提案する。
また,評価における課題と,人間のパフォーマンスと翻訳との関係についても論じる。
論文 参考訳(メタデータ) (2023-06-06T16:51:03Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - Zero-shot Faithful Factual Error Correction [53.121642212060536]
事実の誤りを忠実に訂正することは、テキストの知識基盤の整合性を維持し、シーケンス・ツー・シーケンス・モデルにおける幻覚を防ぐために重要である。
提案するゼロショットフレームワークは,入力クレームに関する質問を定式化し,与えられたエビデンスにおける正しい回答を求め,そのエビデンスとの整合性に基づいて各補正の忠実さを評価する。
論文 参考訳(メタデータ) (2023-05-13T18:55:20Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment
Analysis [56.84237932819403]
本稿では,OODの高次一般化に対するテキストモダリティの悪影響を推定・緩和することを目的とする。
そこで本研究では,マルチモーダル感情分析のためのモデルに依存しない反現実的フレームワークを考案した。
論文 参考訳(メタデータ) (2022-07-24T03:57:40Z) - Costs and Benefits of Wasserstein Fair Regression [11.134279147254361]
本稿では,レグレッション・セッティングにおける統計的パリティと精度の相違点を特徴付ける。
我々の下限はシャープでアルゴリズムに依存しておらず、単純な解釈を許している。
我々は,表現学習のレンズを用いて,公正回帰のための実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-16T14:24:44Z) - Fundamental Limits and Tradeoffs in Invariant Representation Learning [99.2368462915979]
多くの機械学習アプリケーションは、2つの競合する目標を達成する表現を学習する。
ミニマックスゲーム理論の定式化は、精度と不変性の基本的なトレードオフを表す。
分類と回帰の双方において,この一般的かつ重要な問題を情報論的に解析する。
論文 参考訳(メタデータ) (2020-12-19T15:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。