論文の概要: The Differences Between Direct Alignment Algorithms are a Blur
- arxiv url: http://arxiv.org/abs/2502.01237v1
- Date: Mon, 03 Feb 2025 10:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:59.017743
- Title: The Differences Between Direct Alignment Algorithms are a Blur
- Title(参考訳): 直列アライメントアルゴリズムの違いはBlurである
- Authors: Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov,
- Abstract要約: 直接アライメントアルゴリズム(DAA)は、強化学習(RL)と報酬モデリング(RM)を置き換えることで言語モデルのアライメントを簡素化する
DAAは、ランキングの損失(ペアワイズ対ポイントワイズ)、それらの損失に使用される報酬(例えば、ポリシーと参照ポリシーの確率比、オッズ比)、または監督された微調整フェーズが必要かどうか(2段階対1段階)によって分類することができる。
これらの結果は、アライメントアルゴリズムにおける性能向上の早期主張や全体的な優位性を回避するために、注意深い評価の重要性を強調している。
- 参考スコア(独自算出の注目度): 3.0059120458540383
- License:
- Abstract: Direct Alignment Algorithms (DAAs) simplify language model alignment by replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can be classified by their ranking losses (pairwise vs. pointwise), by the rewards used in those losses (e.g., likelihood ratios of policy and reference policy, or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required (two-stage vs. one-stage). We first show that one-stage methods underperform two-stage methods. To address this, we incorporate an explicit SFT phase and introduce the $\beta$ parameter, controlling the strength of preference optimization, into single-stage ORPO and ASFT. These modifications improve their performance in Alpaca Eval 2 by +$3.46$ (ORPO) and +$8.27$ (ASFT), matching two-stage methods like DPO. Further analysis reveals that the key factor is whether the approach uses pairwise or pointwise objectives, rather than the specific implicit reward or loss function. These results highlight the importance of careful evaluation to avoid premature claims of performance gains or overall superiority in alignment algorithms.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) における強化学習 (RL) と報酬モデリング (RM) を置き換えることで、DAA (Direct Alignment Algorithms) は言語モデルのアライメントを簡素化する。
DAAは、ランキングの損失(ペアワイズ対ポイントワイズ)、それらの損失(例えば、ポリシーと参照ポリシーの比率比、オッズ比)、またはスーパーバイザード・ファイン・チューニング(SFT)フェーズが必要か(2段階対1段階)によって分類することができる。
まず,1段法が2段法より優れていることを示す。
これを解決するために、明示的なSFTフェーズを導入し、選好最適化の強度を制御する$\beta$パラメータを単一ステージORPOおよびASFTに導入する。
これらの改良により、アルパカ・エバル2では+3.46$ (ORPO) と+8.27$ (ASFT) の性能が向上し、DPOのような2段階の手法と一致する。
さらに分析したところ、このアプローチが特定の暗黙の報酬や損失関数ではなく、ペアワイズかポイントワイズで目的とするかどうかが重要な要素であることが判明した。
これらの結果は、アライメントアルゴリズムにおける性能向上の早期主張や全体的な優位性を回避するために、注意深い評価の重要性を強調している。
関連論文リスト
- Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - $f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [54.94545757220999]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。
ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文 参考訳(メタデータ) (2024-10-29T02:11:45Z) - SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins [30.767203592231496]
SeRA(Self-Reviewing and Alignment)は、既存のDAAと簡単に組み合わせられる費用効率が高く効果的な手法である。
SeRAは,(1)暗黙の報酬マージンを用いたサンプル選択,(2)暗黙の報酬を用いた選好ブートストラッピング,の2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-10-12T04:17:28Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human
Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。
鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。
以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Stability-penalty-adaptive follow-the-regularized-leader: Sparsity,
game-dependency, and best-of-both-worlds [46.30750729936261]
FTRL(Follow-the-regularized-leader)は近年,バンドイット問題における適応性獲得の最も有望なアプローチの1つである。
我々は3種類の適応性を持ついくつかのアルゴリズムを確立する:空間性、ゲーム依存性、およびベスト・オブ・ボス・ワールド(BOBW)である。
論文 参考訳(メタデータ) (2023-05-26T23:20:48Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。