論文の概要: Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis
- arxiv url: http://arxiv.org/abs/2409.20059v1
- Date: Mon, 30 Sep 2024 08:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 19:42:09.229851
- Title: Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis
- Title(参考訳): 優先アライメントは常にLLM翻訳のベストオプションか? : 実証分析
- Authors: Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro,
- Abstract要約: 本研究ではコントラスト優先最適化(Contrastive Preference Optimization, CPO)に注目し, 翻訳品質に対する嗜好に基づくアライメントの影響を評価する実験を行う。
以上の結果から,CPO はアライメント指標に関して高品質なデータに対して常に Supervised Fine-Tuning (SFT) を上回りながら,下流評価指標間の不安定性をもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 20.023077870947024
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Neural metrics for machine translation (MT) evaluation have become increasingly prominent due to their superior correlation with human judgments compared to traditional lexical metrics. Researchers have therefore utilized neural metrics through quality-informed decoding strategies, achieving better results than likelihood-based methods. With the rise of Large Language Models (LLMs), preference-based alignment techniques have gained attention for their potential to enhance translation quality by optimizing model weights directly on preferences induced by quality estimators. This study focuses on Contrastive Preference Optimization (CPO) and conducts extensive experiments to evaluate the impact of preference-based alignment on translation quality. Our findings indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT) on high-quality data with regard to the alignment metric, it may lead to instability across downstream evaluation metrics, particularly between neural and lexical ones. Additionally, we demonstrate that relying solely on the base model for generating candidate translations achieves performance comparable to using multiple external systems, while ensuring better consistency across downstream metrics.
- Abstract(参考訳): 機械翻訳(MT)評価のためのニューラルネットワークメトリクスは、従来の語彙指標と比較して人間の判断との相関が優れているため、ますます顕著になっている。
そのため、研究者は品質インフォームドデコード戦略を通じて神経メトリクスを活用し、可能性に基づく手法よりも優れた結果を得た。
LLM(Large Language Models)の台頭に伴い、品質推定器によって引き起こされる嗜好に基づいてモデル重みを直接最適化することにより、翻訳品質を向上させる可能性について、嗜好に基づくアライメント技術が注目されている。
本研究では,コントラスト優先最適化(Contrastive Preference Optimization, CPO)に注目し,翻訳品質に対する嗜好に基づくアライメントの影響を評価する。
以上の結果から,CPOはアライメント指標に関して,高品質なデータに対して常にsupervised Fine-Tuning(SFT)を上回り,下流評価指標,特に神経・語彙指標間の不安定性をもたらす可能性が示唆された。
さらに、候補翻訳を生成するためのベースモデルのみに依存することは、下流のメトリクス間の整合性を確保しつつ、複数の外部システムに匹敵する性能を実現することを実証する。
関連論文リスト
- Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Optimizing Language Models for Human Preferences is a Causal Inference Problem [41.59906798328058]
直接結果データセットからの人間の嗜好に対する言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
我々はCPOを2倍の頑健なCPOで拡張し、従属目的の分散を低減し、バイアスに対する確実な強い保証を維持します。
論文 参考訳(メタデータ) (2024-02-22T21:36:07Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。