論文の概要: Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis
- arxiv url: http://arxiv.org/abs/2409.20059v1
- Date: Mon, 30 Sep 2024 08:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 19:42:09.229851
- Title: Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis
- Title(参考訳): 優先アライメントは常にLLM翻訳のベストオプションか? : 実証分析
- Authors: Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro,
- Abstract要約: 本研究ではコントラスト優先最適化(Contrastive Preference Optimization, CPO)に注目し, 翻訳品質に対する嗜好に基づくアライメントの影響を評価する実験を行う。
以上の結果から,CPO はアライメント指標に関して高品質なデータに対して常に Supervised Fine-Tuning (SFT) を上回りながら,下流評価指標間の不安定性をもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 20.023077870947024
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Neural metrics for machine translation (MT) evaluation have become increasingly prominent due to their superior correlation with human judgments compared to traditional lexical metrics. Researchers have therefore utilized neural metrics through quality-informed decoding strategies, achieving better results than likelihood-based methods. With the rise of Large Language Models (LLMs), preference-based alignment techniques have gained attention for their potential to enhance translation quality by optimizing model weights directly on preferences induced by quality estimators. This study focuses on Contrastive Preference Optimization (CPO) and conducts extensive experiments to evaluate the impact of preference-based alignment on translation quality. Our findings indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT) on high-quality data with regard to the alignment metric, it may lead to instability across downstream evaluation metrics, particularly between neural and lexical ones. Additionally, we demonstrate that relying solely on the base model for generating candidate translations achieves performance comparable to using multiple external systems, while ensuring better consistency across downstream metrics.
- Abstract(参考訳): 機械翻訳(MT)評価のためのニューラルネットワークメトリクスは、従来の語彙指標と比較して人間の判断との相関が優れているため、ますます顕著になっている。
そのため、研究者は品質インフォームドデコード戦略を通じて神経メトリクスを活用し、可能性に基づく手法よりも優れた結果を得た。
LLM(Large Language Models)の台頭に伴い、品質推定器によって引き起こされる嗜好に基づいてモデル重みを直接最適化することにより、翻訳品質を向上させる可能性について、嗜好に基づくアライメント技術が注目されている。
本研究では,コントラスト優先最適化(Contrastive Preference Optimization, CPO)に注目し,翻訳品質に対する嗜好に基づくアライメントの影響を評価する。
以上の結果から,CPOはアライメント指標に関して,高品質なデータに対して常にsupervised Fine-Tuning(SFT)を上回り,下流評価指標,特に神経・語彙指標間の不安定性をもたらす可能性が示唆された。
さらに、候補翻訳を生成するためのベースモデルのみに依存することは、下流のメトリクス間の整合性を確保しつつ、複数の外部システムに匹敵する性能を実現することを実証する。
関連論文リスト
- Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
我々は,LMをベースとした推薦者が好む項目と好ましくない項目を区別するのを支援するために,ランキング情報をLMに挿入するソフトマックスDPOを提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z) - Guiding In-Context Learning of LLMs through Quality Estimation for Machine Translation [0.846600473226587]
本稿では、ドメイン固有品質推定(QE)によって導かれる探索アルゴリズムに依存する、文脈内学習(ICL)の新しい手法を提案する。
予備学習言語モデル(PLM)の微調整と比較すると,既存のICL法と翻訳性能は大幅に向上した。
論文 参考訳(メタデータ) (2024-06-12T07:49:36Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Optimizing Language Models for Human Preferences is a Causal Inference Problem [41.59906798328058]
直接結果データセットからの人間の嗜好に対する言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
我々はCPOを2倍の頑健なCPOで拡張し、従属目的の分散を低減し、バイアスに対する確実な強い保証を維持します。
論文 参考訳(メタデータ) (2024-02-22T21:36:07Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本研究では,多彩な嗜好が報酬モデルに及ぼす影響について検討する。
その結果,様々な選好データが報酬モデルのキャリブレーション性能に悪影響を及ぼすことがわかった。
本稿では,RMの校正性能を高めるための多目的リワード学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。