論文の概要: Don't Rank, Combine! Combining Machine Translation Hypotheses Using Quality Estimation
- arxiv url: http://arxiv.org/abs/2401.06688v2
- Date: Thu, 6 Jun 2024 17:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:10:18.228686
- Title: Don't Rank, Combine! Combining Machine Translation Hypotheses Using Quality Estimation
- Title(参考訳): 品質評価を用いた機械翻訳仮説の組合せ
- Authors: Giorgos Vernikos, Andrei Popescu-Belis,
- Abstract要約: 本研究は品質推定量(QE)を用いて翻訳を合成するQE融合を導入する。
提案手法は, 半数以上の症例において, 新規な翻訳を生成できることを実証する。
我々は、QE融合がプール内の候補数と線形にスケールすることを実証的に確立する。
- 参考スコア(独自算出の注目度): 0.6998085564793366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural machine translation systems estimate probabilities of target sentences given source sentences, yet these estimates may not align with human preferences. This work introduces QE-fusion, a method that synthesizes translations using a quality estimation metric (QE), which correlates better with human judgments. QE-fusion leverages a pool of candidates sampled from a model, combining spans from different candidates using a QE metric such as CometKiwi. We compare QE-fusion against beam search and recent reranking techniques, such as Minimum Bayes Risk decoding or QE-reranking. Our method consistently improves translation quality in terms of COMET and BLEURT scores when applied to large language models (LLMs) used for translation (PolyLM, XGLM, Llama2, Mistral, ALMA, and Tower) and to multilingual translation models (NLLB), over five language pairs. Notably, QE-fusion exhibits larger improvements for LLMs due to their ability to generate diverse outputs. We demonstrate that our approach generates novel translations in over half of the cases and consistently outperforms other methods across varying numbers of candidates (5-200). Furthermore, we empirically establish that QE-fusion scales linearly with the number of candidates in the pool.
- Abstract(参考訳): ニューラルネットワーク翻訳システムは、与えられた原文のターゲット文の確率を推定するが、これらの推定は人間の嗜好と一致しないかもしれない。
この研究は、品質推定基準(QE)を用いて翻訳を合成するQE融合(QE-fusion)を導入する。
QE融合はモデルからサンプリングされた候補のプールを利用し、CometKiwiのようなQEメトリックを使用して、異なる候補のスパンを組み合わせる。
ビームサーチに対するQE融合と,近年の最小ベイズリスク復号化やQE復号化といった手法との比較を行った。
提案手法は,多言語翻訳モデル(PolyLM, XGLM, Llama2, Mistral, ALMA, Tower)や5つの言語ペアを用いた多言語翻訳モデル(NLLB)に適用した場合,COMETおよびBLEURTスコアの変換品質を一貫して向上させる。
特に、QE融合は、多様な出力を生成する能力のため、LLMの大幅な改善を示す。
提案手法は,半数以上の事例において新規翻訳が生成され,多くの候補(5~200)において,他の手法よりも一貫して優れることを示す。
さらに、QE融合はプール内の候補数と線形にスケールすることを実証的に確立する。
関連論文リスト
- Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [85.51252685938564]
不確実性定量化(UQ)は、機械学習(ML)に依存するアプリケーションの重要なコンポーネントとして、ますます認識されつつある。
他のMLモデルと同様に、大きな言語モデル(LLM)は、クレームを作成することによって誤った予測をする傾向があり、あるいは与えられた入力に対して単に低品質の出力を生成する。
本稿では,最先端のUQベースラインの集合を実装した新しいベンチマークを提案し,新しいテクニックを制御可能かつ一貫した評価を行う環境を提供する。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - QUEST: Quality-Aware Metropolis-Hastings Sampling for Machine Translation [25.165239478219267]
本稿では,ギブス分布のエネルギー関数として,ノイズ品質推定の過度な信頼を回避するための簡易かつ効果的な手法を提案する。
分布のモードを探す代わりに、メトロポリス・ハスティングスアルゴリズムを用いて高密度領域から複数のサンプルを生成する。
論文 参考訳(メタデータ) (2024-05-28T17:36:06Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。
実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。
その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - On the Calibration of Multilingual Question Answering LLMs [57.296161186129545]
複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。
本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。
LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
論文 参考訳(メタデータ) (2023-11-15T03:29:02Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z) - An Exploratory Analysis of Multilingual Word-Level Quality Estimation
with Cross-Lingual Transformers [3.4355075318742165]
単語レベルの多言語QEモデルは、現在の言語固有のモデルと同等に機能することを示す。
ゼロショットおよび少数ショットQEの場合、他の言語ペアで訓練されたモデルから、任意の新しい言語ペアに対する単語レベルの品質を正確に予測できることを実証する。
論文 参考訳(メタデータ) (2021-05-31T23:21:10Z) - Ensemble-based Transfer Learning for Low-resource Machine Translation
Quality Estimation [1.7188280334580195]
第5回機械翻訳会議(WMT20)の文レベルQE共有タスクに焦点を当てます。
このようなQEデータ不足の課題を克服するために、トランスファーラーニングを備えたアンサンブルベースの予測器推定QEモデルを提案する。
個々の言語で事前学習されたモデルと異なるレベルの並列学習コーパスと、ピアソンの相関値0.298とを組み合わせたアンサンブルモデルにおいて、最も優れた性能を実現する。
論文 参考訳(メタデータ) (2021-05-17T06:02:17Z) - Revisiting Round-Trip Translation for Quality Estimation [0.0]
品質評価(QE)とは、人間が翻訳した参照を使わずに翻訳の質を自動的に評価するタスクである。
本稿では,RTTベースのQEにセマンティック埋め込みを適用する。
提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。
論文 参考訳(メタデータ) (2020-04-29T03:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。