論文の概要: Don't Rank, Combine! Combining Machine Translation Hypotheses Using
Quality Estimation
- arxiv url: http://arxiv.org/abs/2401.06688v1
- Date: Fri, 12 Jan 2024 16:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:59:16.948041
- Title: Don't Rank, Combine! Combining Machine Translation Hypotheses Using
Quality Estimation
- Title(参考訳): ランク付けしないで、コンバイン!
品質推定を用いた機械翻訳仮説の組合せ
- Authors: Giorgos Vernikos and Andrei Popescu-Belis
- Abstract要約: この研究は品質推定基準(QE)を利用したQE融合(QE-fusion)を導入し、人間の判断とよりよく相関し、改良された翻訳を合成する。
提案手法は,半数以上の事例において新規な翻訳を生成できることを示す。
- 参考スコア(独自算出の注目度): 0.8267311047244881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural machine translation systems estimate probabilities of target sentences
given source sentences, yet these estimates may not align with human
preferences. This work introduces QE-fusion, a method utilizing a quality
estimation metric (QE) that better correlates with human judgments to
synthesize improved translations. QE-fusion leverages a candidate pool sampled
from a model, combining spans from different candidates using QE metrics such
as CometKiwi. We compare QE-fusion against beam search and recent reranking
techniques, such as Minimum Bayes Risk decoding or QE-reranking. Our method
consistently improves translation quality in terms of COMET and BLEURT scores
when applied to large language models (LLMs) used for translation (PolyLM,
XGLM, Llama2, and Mistral) and to multilingual translation models (NLLB), over
five language pairs. Notably, QE-fusion exhibits larger improvements for LLMs
due to their ability to generate diverse outputs. We demonstrate that our
approach generates novel translations in over half of the cases and
consistently outperforms other methods across varying numbers of candidates
(5-200). Furthermore, we empirically establish that QE-fusion scales linearly
with the number of candidates in the pool. QE-fusion proves effective in
enhancing LLM-based translation without the need for costly retraining of LLMs.
- Abstract(参考訳): ニューラルネットワーク翻訳システムは、与えられた原文のターゲット文の確率を推定するが、これらの推定は人間の嗜好と一致しないかもしれない。
この研究は品質推定基準(QE)を利用したQE融合(QE-fusion)を導入し、人間の判断とよりよく相関し、改良された翻訳を合成する。
QE融合はモデルからサンプリングされた候補プールを利用し、CometKiwiのようなQEメトリクスを使用して、異なる候補のスパンを組み合わせる。
ビームサーチに対するQE融合と,近年の最小ベイズリスク復号化やQE復号化といった手法との比較を行った。
本手法は,翻訳用大規模言語モデル (polylm, xglm, llama2, mistral) および多言語翻訳モデル (nllb) に適用した場合,comet と bleurt による翻訳品質を一貫して向上させる。
特にqe-fusionは多様な出力を生成する能力によりllmを大きく改善している。
提案手法は, 半数以上のケースで新たな翻訳を生成し, 様々な候補 (5~200) に対して, 一貫して他の手法よりも優れることを示す。
さらに, qe-fusionはプール内の候補数と線形にスケールすることを示した。
QE融合は、LLMのコスト削減を必要とせず、LLMベースの翻訳を改善するのに有効である。
関連論文リスト
- Improving Machine Translation with Human Feedback: An Exploration of
Quality Estimation as a Reward Model [79.45416224840135]
報酬モデルにおける人間の嗜好の不十分なモデリングは、人間のフィードバックを活用して翻訳品質を向上させる上で大きな障害となる。
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
実験結果から,提案したQEに基づくフィードバックトレーニングは,様々な設定において一貫した,重要な改善を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Lost in the Source Language: How Large Language Models Evaluate the
Quality of Machine Translation [68.43666295024714]
大規模言語モデル (LLM) は機械翻訳評価タスクにおいて顕著な成果を上げている。
本研究は,LLMが翻訳評価においてソース情報と参照情報をどのように活用するかを検討することを目的とする。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z) - MDQE: A More Accurate Direct Pretraining for Machine Translation Quality
Estimation [4.416484585765028]
データ品質とトレーニングの目的の両方において,予測器と推定器の間にはまだギャップがある,と我々は主張する。
本稿では,QEタスクに対してより正確な事前学習を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T09:48:37Z) - Verdi: Quality Estimation and Error Detection for Bilingual [23.485380293716272]
Verdiはバイリンガルコーパスのための単語レベルおよび文レベルの後編集作業推定のための新しいフレームワークである。
バイリンガルコーパスの対称性を活用し,NMT予測器にモデルレベル二重学習を適用した。
我々の手法は競争の勝者を圧倒し、他の基準法よりも大きなマージンで上回る。
論文 参考訳(メタデータ) (2021-05-31T11:04:13Z) - Ensemble-based Transfer Learning for Low-resource Machine Translation
Quality Estimation [1.7188280334580195]
第5回機械翻訳会議(WMT20)の文レベルQE共有タスクに焦点を当てます。
このようなQEデータ不足の課題を克服するために、トランスファーラーニングを備えたアンサンブルベースの予測器推定QEモデルを提案する。
個々の言語で事前学習されたモデルと異なるレベルの並列学習コーパスと、ピアソンの相関値0.298とを組み合わせたアンサンブルモデルにおいて、最も優れた性能を実現する。
論文 参考訳(メタデータ) (2021-05-17T06:02:17Z) - Revisiting Round-Trip Translation for Quality Estimation [0.0]
品質評価(QE)とは、人間が翻訳した参照を使わずに翻訳の質を自動的に評価するタスクである。
本稿では,RTTベースのQEにセマンティック埋め込みを適用する。
提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。
論文 参考訳(メタデータ) (2020-04-29T03:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。