論文の概要: Don't Rank, Combine! Combining Machine Translation Hypotheses Using
Quality Estimation
- arxiv url: http://arxiv.org/abs/2401.06688v1
- Date: Fri, 12 Jan 2024 16:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:59:16.948041
- Title: Don't Rank, Combine! Combining Machine Translation Hypotheses Using
Quality Estimation
- Title(参考訳): ランク付けしないで、コンバイン!
品質推定を用いた機械翻訳仮説の組合せ
- Authors: Giorgos Vernikos and Andrei Popescu-Belis
- Abstract要約: この研究は品質推定基準(QE)を利用したQE融合(QE-fusion)を導入し、人間の判断とよりよく相関し、改良された翻訳を合成する。
提案手法は,半数以上の事例において新規な翻訳を生成できることを示す。
- 参考スコア(独自算出の注目度): 0.8267311047244881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural machine translation systems estimate probabilities of target sentences
given source sentences, yet these estimates may not align with human
preferences. This work introduces QE-fusion, a method utilizing a quality
estimation metric (QE) that better correlates with human judgments to
synthesize improved translations. QE-fusion leverages a candidate pool sampled
from a model, combining spans from different candidates using QE metrics such
as CometKiwi. We compare QE-fusion against beam search and recent reranking
techniques, such as Minimum Bayes Risk decoding or QE-reranking. Our method
consistently improves translation quality in terms of COMET and BLEURT scores
when applied to large language models (LLMs) used for translation (PolyLM,
XGLM, Llama2, and Mistral) and to multilingual translation models (NLLB), over
five language pairs. Notably, QE-fusion exhibits larger improvements for LLMs
due to their ability to generate diverse outputs. We demonstrate that our
approach generates novel translations in over half of the cases and
consistently outperforms other methods across varying numbers of candidates
(5-200). Furthermore, we empirically establish that QE-fusion scales linearly
with the number of candidates in the pool. QE-fusion proves effective in
enhancing LLM-based translation without the need for costly retraining of LLMs.
- Abstract(参考訳): ニューラルネットワーク翻訳システムは、与えられた原文のターゲット文の確率を推定するが、これらの推定は人間の嗜好と一致しないかもしれない。
この研究は品質推定基準(QE)を利用したQE融合(QE-fusion)を導入し、人間の判断とよりよく相関し、改良された翻訳を合成する。
QE融合はモデルからサンプリングされた候補プールを利用し、CometKiwiのようなQEメトリクスを使用して、異なる候補のスパンを組み合わせる。
ビームサーチに対するQE融合と,近年の最小ベイズリスク復号化やQE復号化といった手法との比較を行った。
本手法は,翻訳用大規模言語モデル (polylm, xglm, llama2, mistral) および多言語翻訳モデル (nllb) に適用した場合,comet と bleurt による翻訳品質を一貫して向上させる。
特にqe-fusionは多様な出力を生成する能力によりllmを大きく改善している。
提案手法は, 半数以上のケースで新たな翻訳を生成し, 様々な候補 (5~200) に対して, 一貫して他の手法よりも優れることを示す。
さらに, qe-fusionはプール内の候補数と線形にスケールすることを示した。
QE融合は、LLMのコスト削減を必要とせず、LLMベースの翻訳を改善するのに有効である。
関連論文リスト
- Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - QUEST: Quality-Aware Metropolis-Hastings Sampling for Machine Translation [25.165239478219267]
本稿では,ギブス分布のエネルギー関数として,ノイズ品質推定の過度な信頼を回避するための簡易かつ効果的な手法を提案する。
分布のモードを探す代わりに、メトロポリス・ハスティングスアルゴリズムを用いて高密度領域から複数のサンプルを生成する。
論文 参考訳(メタデータ) (2024-05-28T17:36:06Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - On the Calibration of Multilingual Question Answering LLMs [57.296161186129545]
複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。
本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。
LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
論文 参考訳(メタデータ) (2023-11-15T03:29:02Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z) - An Exploratory Analysis of Multilingual Word-Level Quality Estimation
with Cross-Lingual Transformers [3.4355075318742165]
単語レベルの多言語QEモデルは、現在の言語固有のモデルと同等に機能することを示す。
ゼロショットおよび少数ショットQEの場合、他の言語ペアで訓練されたモデルから、任意の新しい言語ペアに対する単語レベルの品質を正確に予測できることを実証する。
論文 参考訳(メタデータ) (2021-05-31T23:21:10Z) - Ensemble-based Transfer Learning for Low-resource Machine Translation
Quality Estimation [1.7188280334580195]
第5回機械翻訳会議(WMT20)の文レベルQE共有タスクに焦点を当てます。
このようなQEデータ不足の課題を克服するために、トランスファーラーニングを備えたアンサンブルベースの予測器推定QEモデルを提案する。
個々の言語で事前学習されたモデルと異なるレベルの並列学習コーパスと、ピアソンの相関値0.298とを組み合わせたアンサンブルモデルにおいて、最も優れた性能を実現する。
論文 参考訳(メタデータ) (2021-05-17T06:02:17Z) - Revisiting Round-Trip Translation for Quality Estimation [0.0]
品質評価(QE)とは、人間が翻訳した参照を使わずに翻訳の質を自動的に評価するタスクである。
本稿では,RTTベースのQEにセマンティック埋め込みを適用する。
提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。
論文 参考訳(メタデータ) (2020-04-29T03:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。