Fugu-MT 論文翻訳(概要): ORPO: Monolithic Preference Optimization without Reference Model

論文の概要: ORPO: Monolithic Preference Optimization without Reference Model

arxiv url: http://arxiv.org/abs/2403.07691v2
Date: Thu, 14 Mar 2024 07:47:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 01:01:27.412385
Title: ORPO: Monolithic Preference Optimization without Reference Model
Title（参考訳）: ORPO:参照モデルなしでのモノリシックな選好最適化
Authors: Jiwoo Hong, Noah Lee, James Thorne,
Abstract要約: 選好アライメントの文脈において,教師付き微調整が果たす重要な役割について検討した。モデルフリーなモノリシックオッズ比最適化アルゴリズムORPOを導入し、追加の選好アライメントフェーズの必要性を排除した。具体的には、Phi-2 (2.7B)、Llama-2 (7B)、Mistral (7B)、ORPO on the UltraFeedbackは、7Bと13B以上のパラメータを持つ最先端言語モデルの性能を上回っている。
参考スコア（独自算出の注目度）: 9.53888551630878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While recent preference alignment algorithms for language models have demonstrated promising results, supervised fine-tuning (SFT) remains imperative for achieving successful convergence. In this paper, we study the crucial role of SFT within the context of preference alignment, emphasizing that a minor penalty for the disfavored generation style is sufficient for preference-aligned SFT. Building on this foundation, we introduce a straightforward and innovative reference model-free monolithic odds ratio preference optimization algorithm, ORPO, eliminating the necessity for an additional preference alignment phase. We demonstrate, both empirically and theoretically, that the odds ratio is a sensible choice for contrasting favored and disfavored styles during SFT across the diverse sizes from 125M to 7B. Specifically, fine-tuning Phi-2 (2.7B), Llama-2 (7B), and Mistral (7B) with ORPO on the UltraFeedback alone surpasses the performance of state-of-the-art language models with more than 7B and 13B parameters: achieving up to 12.20% on $\text{AlpacaEval}_{2.0}$ (Figure 1), 66.19% on IFEval (instruction-level loose, Table 6), and 7.32 in MT-Bench (Figure 12). We release code and model checkpoints for Mistral-ORPO-$\alpha$ (7B) and Mistral-ORPO-$\beta$ (7B).
Abstract（参考訳）: 言語モデルに対する最近の選好アライメントアルゴリズムは有望な結果を示しているが、教師付き微調整(SFT)は、良好な収束を達成するために必須である。本稿では、嗜好調整におけるSFTの重要な役割について検討し、好ましくない生成スタイルに対する軽微なペナルティが嗜好整合SFTに十分であることを強調した。この基礎の上に構築され、単純で革新的な参照モデルのないモノリシックオッズ比最適化アルゴリズムORPOを導入し、追加の選好アライメントフェーズの必要性を排除した。実験的および理論的には、オッズ比は、SFTにおいて125Mから7Bまでの多様なサイズで好ましくないスタイルと好ましくないスタイルを対比する上で、妥当な選択であることを示す。具体的には、Phi-2 (2.7B)、Llama-2 (7B)、Mistral (7B)とORPOをUltraFeedbackだけで組み合わせると、7Bと13B以上のパラメータを持つ最先端の言語モデルのパフォーマンスを上回り、$\text{AlpacaEval}_{2.0}$ (Figure 1)で最大12.20%、IFEvalで66.19%、MT-Benchで7.32である。私たちはMistral-ORPO-$\alpha$(7B)とMistral-ORPO-$\beta$(7B)のコードとモデルチェックポイントをリリースします。

関連論文リスト

Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文参考訳（メタデータ） (2026-01-06T20:18:55Z)
Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文参考訳（メタデータ） (2025-10-20T09:58:03Z)
Weights-Rotated Preference Optimization for Large Language Models [30.25242193651982]
本稿では,DPO から受け継いだ KL 発散量に対して,出力層ロジットを暗黙的に制約する,新しい重み付き優先度最適化 (RoPO) アルゴリズムを提案する。我々の RoPO は AlpacaEval 2 の 3.27 点改善を実現し,トレーニング可能なパラメータの 0.015% を MT-Bench の 6.2 から 7.5 点で上回っている。
論文参考訳（メタデータ） (2025-08-25T03:57:17Z)
Reverse Preference Optimization for Complex Instruction Following [61.39734201711077]
本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。 RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
論文参考訳（メタデータ） (2025-05-28T09:44:27Z)
EMAFusion: A Self-Optimizing System for Seamless LLM Selection and Integration [9.019951211182969]
EMAFusion は LLM の選択とクエリに対する信頼性の高い実行を自己最適化する新しいフレームワークである。 EMAFusionは2.6%以上(94.3%対91.7%)、平均価格より4倍安い。組み合わせたルーティング手法は、分類基準(88.1%)と学習モデル予測基準(91.7%)に比較して94.3%の精度を提供する。
論文参考訳（メタデータ） (2025-04-14T20:04:54Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-10-04T04:56:11Z)
Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。 1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文参考訳（メタデータ） (2024-09-19T01:58:19Z)
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。 ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-09-14T11:39:13Z)
Triple Preference Optimization: Achieving Better Alignment with Less Data in a Single Step Optimization [35.36615140853107]
Triple Preference Optimization (TPO) は、大きめの言語モデルと3つの好みを、別個のSupervised Fine-Tuned (SFT)モデルを必要とせずに整合させるように設計されている。 TPOは,SFT,DPO,KTO,IPO,CPO,ORPOといった他の手法によるモデルと比較して,優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-05-26T20:18:11Z)
Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting [0.0]
我々は、大規模言語モデル(LLM)の様々な微調整戦略の理解を深めようとしている。我々は,2つのデータセット(COLAとMNLI)で事前学習したモデルに対して,バニラファインチューニングやPBFT(Pattern-Based Fine-Tuning)のような最先端の手法を比較した。以上の結果から,バニラFTやPBFTに匹敵する領域外一般化が期待できる可能性が示唆された。
論文参考訳（メタデータ） (2024-05-21T20:08:52Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。 ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文参考訳（メタデータ） (2024-01-16T15:04:51Z)
Mistral 7B [62.17530433867458]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文参考訳（メタデータ） (2023-10-10T17:54:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。