論文の概要: Chasing COMET: Leveraging Minimum Bayes Risk Decoding for Self-Improving Machine Translation
- arxiv url: http://arxiv.org/abs/2405.11937v1
- Date: Mon, 20 May 2024 10:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:24:44.742986
- Title: Chasing COMET: Leveraging Minimum Bayes Risk Decoding for Self-Improving Machine Translation
- Title(参考訳): チャットCOMET: 自己改善型機械翻訳における最小ベイズリスクデコーディングの活用
- Authors: Kamil Guttmann, Mikołaj Pokrywka, Adrian Charkiewicz, Artur Nowakowski,
- Abstract要約: 本稿では,機械翻訳における自己改善のための最小ベイズリスク(MBR)デコードについて検討する。
MBRで復号された前方翻訳のモデルを微調整することで自己改善プロセスを実現する。
その結果,全言語対の翻訳品質が大幅に向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper explores Minimum Bayes Risk (MBR) decoding for self-improvement in machine translation (MT), particularly for domain adaptation and low-resource languages. We implement the self-improvement process by fine-tuning the model on its MBR-decoded forward translations. By employing COMET as the MBR utility metric, we aim to achieve the reranking of translations that better aligns with human preferences. The paper explores the iterative application of this approach and the potential need for language-specific MBR utility metrics. The results demonstrate significant enhancements in translation quality for all examined language pairs, including successful application to domain-adapted models and generalisation to low-resource settings. This highlights the potential of COMET-guided MBR for efficient MT self-improvement in various scenarios.
- Abstract(参考訳): 本稿では,機械翻訳(MT)における自己改善のための最小ベイズリスク(MBR)デコーディングについて検討する。
MBRで復号された前方翻訳のモデルを微調整することで自己改善プロセスを実現する。
COMET を MBR ユーティリティメトリックとして活用することにより,人間の嗜好に適合する翻訳の順位を向上することを目指している。
本稿では,このアプローチの反復的適用と,言語固有のMBRユーティリティメトリクスの必要性について検討する。
その結果、ドメイン適応型モデルへの適用や低リソース設定への一般化など、すべての言語ペアに対する翻訳品質の大幅な向上が示された。
このことは、様々なシナリオにおいて効率的なMT自己改善のためのCOMET誘導MBRの可能性を強調している。
関連論文リスト
- Unveiling the Power of Source: Source-based Minimum Bayes Risk Decoding for Neural Machine Translation [30.323103270892734]
ニューラルマシン翻訳(NMT)の一般的な手法である、最大後部復号法は、推定後部確率を最大化することを目的としている。
最小ベイズリスク(MBR)復号法は、最も期待されているユーティリティで仮説を求める方法を提供する。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - Enhancing Neural Machine Translation of Low-Resource Languages: Corpus
Development, Human Evaluation and Explainable AI Architectures [0.0]
Transformerアーキテクチャは、特に高リソースの言語ペアにおいて、ゴールドスタンダードとして際立っている。
低リソース言語のための並列データセットの不足は、機械翻訳開発を妨げる可能性がある。
この論文では、ニューラルネットワーク翻訳モデルの開発、微調整、デプロイのために合理化された2つのオープンソースアプリケーションであるAdaptNMTとAdaptMLLMを紹介している。
論文 参考訳(メタデータ) (2024-03-03T18:08:30Z) - Direct Preference Optimization for Neural Machine Translation with Minimum Bayes Risk Decoding [15.309135455863753]
本稿では,最近開発された強化学習手法である直接選好最適化(DPO)を用いて,追加計算なしで多言語大言語モデルを微調整する方法について述べる。
本手法では, 単言語による微調整のみを用い, DPOのないMLLMと比較して, 複数のNMTテストセットの性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-11-14T18:43:51Z) - Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Improving Translation Faithfulness of Large Language Models via
Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。
SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。
OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文 参考訳(メタデータ) (2023-08-24T09:32:29Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Minimum Bayes Risk Decoding with Neural Metrics of Translation Quality [16.838064121696274]
この作業は、翻訳品質の多様な自動メトリクスを最適化するために、最小ベイズリスクデコーディングを適用します。
実験により、神経翻訳モデルと神経基準に基づく計量であるBLEURTを組み合わせることで、自動評価と人的評価が大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2021-11-17T20:48:02Z) - Simulated Multiple Reference Training Improves Low-Resource Machine
Translation [22.404646693366054]
我々は,可能翻訳の全空間を近似する新しいMTトレーニング手法であるSMRT(Simulated Multiple Reference Training)を導入する。
SMRTの低リソース環境での英語翻訳における有効性を示し,1.2から7.0BLEUに改善した。
論文 参考訳(メタデータ) (2020-04-30T00:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。