論文の概要: Modeling User Preferences with Automatic Metrics: Creating a High-Quality Preference Dataset for Machine Translation
- arxiv url: http://arxiv.org/abs/2410.07779v1
- Date: Thu, 10 Oct 2024 10:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 14:56:00.927264
- Title: Modeling User Preferences with Automatic Metrics: Creating a High-Quality Preference Dataset for Machine Translation
- Title(参考訳): 自動メトリクスによるユーザ嗜好のモデル化:機械翻訳のための高品質選好データセットの作成
- Authors: Sweta Agrawal, José G. C. de Souza, Ricardo Rei, António Farinhas, Gonçalo Faria, Patrick Fernandes, Nuno M Guerreiro, Andre Martins,
- Abstract要約: 両世界の最善を生かすアプローチを提案する。
我々はまず,複数の高品質MTシステムによって生成された翻訳について,専門言語学者から文レベルの品質評価を収集する。
次に、この分析を用いて18の言語方向をカバーする18kインスタンスからなる新しいデータセットMT-Prefをキュレートする。
- 参考スコア(独自算出の注目度): 18.077562738603792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment with human preferences is an important step in developing accurate and safe large language models. This is no exception in machine translation (MT), where better handling of language nuances and context-specific variations leads to improved quality. However, preference data based on human feedback can be very expensive to obtain and curate at a large scale. Automatic metrics, on the other hand, can induce preferences, but they might not match human expectations perfectly. In this paper, we propose an approach that leverages the best of both worlds. We first collect sentence-level quality assessments from professional linguists on translations generated by multiple high-quality MT systems and evaluate the ability of current automatic metrics to recover these preferences. We then use this analysis to curate a new dataset, MT-Pref (metric induced translation preference) dataset, which comprises 18k instances covering 18 language directions, using texts sourced from multiple domains post-2022. We show that aligning TOWER models on MT-Pref significantly improves translation quality on WMT23 and FLORES benchmarks.
- Abstract(参考訳): 人間の好みの調整は、正確で安全な大言語モデルを開発するための重要なステップである。
これは機械翻訳(MT)では例外ではなく、言語ニュアンスや文脈固有のバリエーションの扱いが改善される。
しかし,人間のフィードバックに基づく選好データは,大規模に収集・キュレートするのに非常にコストがかかる。
一方、自動メトリクスは好みを誘導するが、人間の期待と完全に一致しないかもしれない。
本稿では,両世界のベストを生かすアプローチを提案する。
まず,複数の高品質MTシステムによって生成された翻訳について,専門言語学者から文レベルの品質評価を収集し,これらの嗜好を回復するための現在の自動メトリクスの能力を評価する。
次に、この分析を用いて、2022年以降に複数のドメインから得られたテキストを用いて、18kの言語方向をカバーするMT-Prefデータセットをキュレートする。
MT-Pref上でTOWERモデルを調整することで,WMT23およびFLORESベンチマークの翻訳品質が大幅に向上することを示す。
関連論文リスト
- Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis [20.023077870947024]
本研究ではコントラスト優先最適化(Contrastive Preference Optimization, CPO)に注目し, 翻訳品質に対する嗜好に基づくアライメントの影響を評価する実験を行う。
以上の結果から,CPO はアライメント指標に関して高品質なデータに対して常に Supervised Fine-Tuning (SFT) を上回りながら,下流評価指標間の不安定性をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-30T08:01:44Z) - Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Fine-Tuned Machine Translation Metrics Struggle in Unseen Domains [10.743362634494842]
このデータセットを用いて、人為的なMT品質判断に基づいて微調整された機械翻訳(MT)メトリクスが、トレーニングと推論の間のドメインシフトに対して堅牢であるかどうかを調べる。
微調整されたメトリクスは、表面形状に依存するメトリクスと、MT品質判断に基づいて微調整されていない事前訓練されたメトリクスとに対して、目に見えない領域シナリオにおいて、かなりのパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-02-28T23:01:24Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Bring More Attention to Syntactic Symmetry for Automatic Postediting of
High-Quality Machine Translations [4.217162744375792]
本稿では, APE モデルが対象言語に対する理解を深めることが期待される正規化の言語動機付け手法を提案する。
実験結果から,提案手法は高品位MTにおける最先端アーキテクチャの APE 品質向上に有効であることが示された。
論文 参考訳(メタデータ) (2023-05-17T20:25:19Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Machine Translation Customization via Automatic Training Data Selection
from the Web [97.98885151955467]
特定のドメインで機械翻訳システムをカスタマイズするためのアプローチについて説明します。
ターゲットとなる顧客データに似たデータを選択し、ニューラル翻訳モデルを訓練する。
最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。
論文 参考訳(メタデータ) (2021-02-20T03:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。