論文の概要: Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions
- arxiv url: http://arxiv.org/abs/2603.19335v1
- Date: Thu, 19 Mar 2026 04:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.808722
- Title: Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions
- Title(参考訳): 学習後のアルゴリズムは実際は希薄か? スケール依存のランクインバージョンをモデルスケールで検証した研究
- Authors: Xiaoyi Li,
- Abstract要約: 51のポストトレーニングアルゴリズムを同一のインフラで実装した統合フレームワークを提案する。
本研究では,4つのモデルスケール(0.5B--7B),3つの評価領域,20種類のDPO分類にまたがる8つのアルゴリズムについて検討した。
20種類のDPOはボンフェロニ補正後にバニラDPOを著しく上回りませんが、唯一の重要な異常値であるSimPOはより悪くなります。
- 参考スコア(独自算出の注目度): 1.6498361958317636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training alignment has produced dozens of competing algorithms -- DPO, SimPO, KTO, GRPO, and others -- yet practitioners lack controlled comparisons to guide algorithm selection. We present OXRL, a unified framework implementing 51 post-training algorithms with identical infrastructure, enabling the first large-scale apples-to-apples evaluation. Our study spans 8 algorithms across 4 model scales (0.5B--7B), 3 evaluation domains, and a 20-variant DPO taxonomy (100 runs at 1.5B, 5 seeds each), totaling $\sim$240 training runs on H100 GPUs. Three headline findings emerge. (1)~Algorithm rankings are unstable across scale: at 1.5B, online RL (SGRPO) tops all methods at 58.0\%~$\pm$0.57 on GSM8K; by 7B, the worst small-scale method (SimPO) becomes the best (85.8\%), a complete ranking inversion driven by model scale rather than LoRA regularization (confirmed via 2$\times$2 factorial). (2)~Loss function modifications yield negligible gains: none of 20 DPO variants significantly outperform vanilla DPO after Bonferroni correction; the sole significant outlier, SimPO, is worse ($-$11.5~pp, $p < 10^{-4}$). (3)~Algorithm leverage is task-specific: the 19.3~pp GSM8K spread collapses to 0.54~pp on MATH ($36\times$) and 0.47~pp on general-domain benchmarks ($41\times$), confirming that algorithm choice matters primarily within the training distribution. These findings yield a hierarchy of leverage for practitioners: model scale (${\sim}$50~pp) $\gg$ training paradigm (${\sim}$10~pp) $\gg$ online vs.\ offline (${\sim}$9~pp) $\gg$ loss function (${\sim}$1~pp). We release all code, configs, and evaluation data as a living community benchmark.
- Abstract(参考訳): トレーニング後のアライメントは、DPO、SimPO、KTO、GRPOなど、数十の競合するアルゴリズムを生み出している。
我々は,51のポストトレーニングアルゴリズムを同一のインフラで実装した一貫したフレームワークOXRLを提案する。
本研究は,4つのモデルスケール(0.5B--7B),3つの評価ドメイン,20種類のDPO分類(それぞれ1.5B,5シード)にまたがる8つのアルゴリズムにまたがる。
3つの見出しが浮かび上がる。
1.5B ではオンライン RL (SGRPO) が GSM8K 上で 58.0\%~$\pm$0.57 で全てのメソッドを上回り、7B では最悪の小規模メソッド (SimPO) が最高 (85.8\%) となり、LoRA 正規化よりもモデルスケールによって駆動される完全なランクインバージョン (2$\times$2 factorial で確認されている) である。
2~ロス関数の修正は無視できる利得をもたらす: ボンフェロニ補正後の20のDPO変種のうち、バニラDPOを著しく上回り、唯一の重要な外れ値であるSimPOは、より悪い(-$11.5~pp, $p < 10^{-4}$)。
19.3~pp GSM8Kスプレッド崩壊はMATH(36\times$)で0.54〜pp、一般ベンチマーク(41\times$)で0.47〜ppとなり、アルゴリズムの選択が主にトレーニング分布内で重要であることを確認する。
モデルスケール($50〜pp)$\gg$トレーニングパラダイム($10〜pp)$\gg$オンライン vs. モデルスケール($50〜pp)$\gg$トレーニングパラダイム($10〜pp)。
\ offline${\sim}$9~pp) $\gg$ loss function${\sim}$1~pp)
生きたコミュニティベンチマークとして、すべてのコード、設定、評価データをリリースします。
関連論文リスト
- RePO: Understanding Preference Learning Through ReLU-Based Optimization [66.098833436503]
本稿では,ReLUに基づくPreference Optimization (RePO)を提案する。
RePOは、ロジスティック重み付けが二項しきい値に崩壊するSimPOの制限ケース(「infty$」の略)として特徴付けられる。
AlpacaEval 2 と Arena-Hard の実証結果は、RePO が複数のベースモデルで DPO と SimPO を上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-10T15:11:07Z) - Efficient Algorithms for Generalized Linear Bandits with Heavy-tailed
Rewards [40.99322897009357]
トランケーションと平均中央値に基づく2つの新しいアルゴリズムを提案する。
我々のトラニケーションベースのアルゴリズムは、既存のトラニケーションベースのアプローチと区別して、オンライン学習をサポートする。
我々のアルゴリズムは,$epsilon=1$の既存アルゴリズムと比較して,対数係数による後悔境界を改善する。
論文 参考訳(メタデータ) (2023-10-28T13:01:10Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Noise Stability Optimization for Finding Flat Minima: A Hessian-based Regularization Approach [18.009376840944284]
本稿では,ヘッセン損失行列を効果的に正規化できるアルゴリズムを提案する。
提案手法は,CLIPとチェーン・オブ・ファインチューニングデータセットの事前学習における一般化の改善に有効である。
論文 参考訳(メタデータ) (2023-06-14T14:58:36Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Robust estimation via generalized quasi-gradients [28.292300073453877]
最近提案されたロバスト推定問題の多くが効率的に解ける理由を示す。
我々は「一般化された準次数」の存在を識別する
一般化された準勾配が存在することを示し、効率的なアルゴリズムを構築する。
論文 参考訳(メタデータ) (2020-05-28T15:14:33Z) - Convergence of Online Adaptive and Recurrent Optimization Algorithms [0.0]
我々は、機械学習で使用されるいくつかの顕著な降下アルゴリズムの局所収束を証明した。
我々は確率的視点ではなく「エルゴディック」を採用し、確率分布の代わりに経験的な時間平均で作業する。
論文 参考訳(メタデータ) (2020-05-12T09:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。