論文の概要: Knowledge-Prompted Estimator: A Novel Approach to Explainable Machine
Translation Assessment
- arxiv url: http://arxiv.org/abs/2306.07486v1
- Date: Tue, 13 Jun 2023 01:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:17:42.625685
- Title: Knowledge-Prompted Estimator: A Novel Approach to Explainable Machine
Translation Assessment
- Title(参考訳): 知識推進型推定器:説明可能な機械翻訳評価の新しいアプローチ
- Authors: Hao Yang, Min Zhang, Shimin Tao, Minghan Wang, Daimeng Wei, Yanfei
Jiang
- Abstract要約: 言語間機械翻訳(MT)の品質評価は,翻訳性能を評価する上で重要な役割を担っている。
GEMBAはLarge Language Models (LLMs) に基づく最初のMT品質評価尺度であり、システムレベルのMT品質評価において最先端(SOTA)を達成するために一段階のプロンプトを用いる。
本稿では,KPE(Knowledge-Prompted Estor)という,難易度,トークンレベルの類似度,文レベルの類似度を含む3つのワンステッププロンプト技術を組み合わせたCoTプロンプト手法を提案する。
- 参考スコア(独自算出の注目度): 20.63045120292095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual Machine Translation (MT) quality estimation plays a crucial
role in evaluating translation performance. GEMBA, the first MT quality
assessment metric based on Large Language Models (LLMs), employs one-step
prompting to achieve state-of-the-art (SOTA) in system-level MT quality
estimation; however, it lacks segment-level analysis. In contrast,
Chain-of-Thought (CoT) prompting outperforms one-step prompting by offering
improved reasoning and explainability. In this paper, we introduce
Knowledge-Prompted Estimator (KPE), a CoT prompting method that combines three
one-step prompting techniques, including perplexity, token-level similarity,
and sentence-level similarity. This method attains enhanced performance for
segment-level estimation compared with previous deep learning models and
one-step prompting approaches. Furthermore, supplementary experiments on
word-level visualized alignment demonstrate that our KPE method significantly
improves token alignment compared with earlier models and provides better
interpretability for MT quality estimation. Code will be released upon
publication.
- Abstract(参考訳): 言語間機械翻訳(mt)の品質推定は、翻訳性能を評価する上で重要な役割を果たす。
GEMBAは、Large Language Models (LLMs) に基づく最初のMT品質評価尺度であり、システムレベルのMT品質評価において最先端(SOTA)を達成するために一段階のプロンプトを用いるが、セグメントレベルの分析は欠いている。
対照的に、Chain-of-Thought(CoT)は、推論と説明可能性の改善を提供することで、ワンステップのプロンプトより優れている。
本稿では,難易度,トークンレベルの類似度,文レベルの類似度を含む3つのワンステッププロンプト技術を組み合わせたCoTプロンプト手法であるKPE(Knowledge-Prompted Estimator)を提案する。
本手法は,従来のディープラーニングモデルやワンステッププロンシング手法と比較してセグメントレベルの推定性能が向上する。
さらに, 単語レベルの可視化アライメントに関する補足実験により, KPE法は従来のモデルと比較してトークンアライメントを著しく改善し, MT品質評価に優れた解釈性を提供することを示した。
コードは出版時に公開される。
関連論文リスト
- BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Discourse Cohesion Evaluation for Document-Level Neural Machine
Translation [36.96887050831173]
優れた文書レベルのニューラルマシン翻訳(NMT)モデルによって生成された翻訳は一貫性があり一貫性があることが知られている。
BLEUのような既存の文レベルの評価指標は、文書レベルでのモデルの性能をほとんど反映できない。
文書翻訳の結束度を測定するために,4つの結束度を考慮した新しいテストスイートを提案する。
論文 参考訳(メタデータ) (2022-08-19T01:56:00Z) - An Overview on Machine Translation Evaluation [6.85316573653194]
機械翻訳(MT)はAIと開発の重要なタスクの1つとなっている。
MTの評価課題は,機械翻訳の質を評価するだけでなく,機械翻訳研究者にタイムリーなフィードバックを与えることである。
本報告は,機械翻訳評価(MTE)の略歴,MTE研究手法の分類,最先端の進展について概説する。
論文 参考訳(メタデータ) (2022-02-22T16:58:28Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - A Simple Post-Processing Technique for Improving Readability Assessment
of Texts using Word Mover's Distance [0.0]
我々は、ランキングテキストのWord Mover's Distance(WMD)を組み込むことで、自動可読性評価の従来の手法を改善する。
フィリピン, ドイツ語, 英語の3つの多言語データセットに対する実験の結果, ポストプロセッシング技術は, 以前のバニラモデルやランキングベースモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-12T13:51:38Z) - On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。
我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。
我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文 参考訳(メタデータ) (2020-10-24T04:30:02Z) - Unsupervised Quality Estimation for Neural Machine Translation [63.38918378182266]
既存のアプローチでは、大量の専門家アノテートデータ、計算、トレーニング時間が必要です。
MTシステム自体以外に、トレーニングや追加リソースへのアクセスが不要なQEに対して、教師なしのアプローチを考案する。
我々は品質の人間の判断と非常によく相関し、最先端の教師付きQEモデルと競合する。
論文 参考訳(メタデータ) (2020-05-21T12:38:06Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Revisiting Round-Trip Translation for Quality Estimation [0.0]
品質評価(QE)とは、人間が翻訳した参照を使わずに翻訳の質を自動的に評価するタスクである。
本稿では,RTTベースのQEにセマンティック埋め込みを適用する。
提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。
論文 参考訳(メタデータ) (2020-04-29T03:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。