論文の概要: ORPO: Monolithic Preference Optimization without Reference Model
- arxiv url: http://arxiv.org/abs/2403.07691v2
- Date: Thu, 14 Mar 2024 07:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 01:01:27.412385
- Title: ORPO: Monolithic Preference Optimization without Reference Model
- Title(参考訳): ORPO:参照モデルなしでのモノリシックな選好最適化
- Authors: Jiwoo Hong, Noah Lee, James Thorne,
- Abstract要約: 選好アライメントの文脈において,教師付き微調整が果たす重要な役割について検討した。
モデルフリーなモノリシックオッズ比最適化アルゴリズムORPOを導入し、追加の選好アライメントフェーズの必要性を排除した。
具体的には、Phi-2 (2.7B)、Llama-2 (7B)、Mistral (7B)、ORPO on the UltraFeedbackは、7Bと13B以上のパラメータを持つ最先端言語モデルの性能を上回っている。
- 参考スコア(独自算出の注目度): 9.53888551630878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent preference alignment algorithms for language models have demonstrated promising results, supervised fine-tuning (SFT) remains imperative for achieving successful convergence. In this paper, we study the crucial role of SFT within the context of preference alignment, emphasizing that a minor penalty for the disfavored generation style is sufficient for preference-aligned SFT. Building on this foundation, we introduce a straightforward and innovative reference model-free monolithic odds ratio preference optimization algorithm, ORPO, eliminating the necessity for an additional preference alignment phase. We demonstrate, both empirically and theoretically, that the odds ratio is a sensible choice for contrasting favored and disfavored styles during SFT across the diverse sizes from 125M to 7B. Specifically, fine-tuning Phi-2 (2.7B), Llama-2 (7B), and Mistral (7B) with ORPO on the UltraFeedback alone surpasses the performance of state-of-the-art language models with more than 7B and 13B parameters: achieving up to 12.20% on $\text{AlpacaEval}_{2.0}$ (Figure 1), 66.19% on IFEval (instruction-level loose, Table 6), and 7.32 in MT-Bench (Figure 12). We release code and model checkpoints for Mistral-ORPO-$\alpha$ (7B) and Mistral-ORPO-$\beta$ (7B).
- Abstract(参考訳): 言語モデルに対する最近の選好アライメントアルゴリズムは有望な結果を示しているが、教師付き微調整(SFT)は、良好な収束を達成するために必須である。
本稿では、嗜好調整におけるSFTの重要な役割について検討し、好ましくない生成スタイルに対する軽微なペナルティが嗜好整合SFTに十分であることを強調した。
この基礎の上に構築され、単純で革新的な参照モデルのないモノリシックオッズ比最適化アルゴリズムORPOを導入し、追加の選好アライメントフェーズの必要性を排除した。
実験的および理論的には、オッズ比は、SFTにおいて125Mから7Bまでの多様なサイズで好ましくないスタイルと好ましくないスタイルを対比する上で、妥当な選択であることを示す。
具体的には、Phi-2 (2.7B)、Llama-2 (7B)、Mistral (7B)とORPOをUltraFeedbackだけで組み合わせると、7Bと13B以上のパラメータを持つ最先端の言語モデルのパフォーマンスを上回り、$\text{AlpacaEval}_{2.0}$ (Figure 1)で最大12.20%、IFEvalで66.19%、MT-Benchで7.32である。
私たちはMistral-ORPO-$\alpha$(7B)とMistral-ORPO-$\beta$(7B)のコードとモデルチェックポイントをリリースします。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM
Performance in Machine Translation [52.155963216988724]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - Fine-tuning Large Language Models for Adaptive Machine Translation [2.648836772989769]
適応機械翻訳のための汎用大言語モデル(LLM)の微調整
その結果、ゼロショットとワンショットの両方の翻訳シナリオの品質改善が示された。
実験により、微調整はMistralの文脈内学習能力を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-20T03:21:48Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - Mistral 7B [62.17530433867458]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。
また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文 参考訳(メタデータ) (2023-10-10T17:54:58Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。