論文の概要: EvoPref: Multi-Objective Evolutionary Optimization Discovers Diverse LLM Alignments Beyond Gradient Descent
- arxiv url: http://arxiv.org/abs/2605.09777v1
- Date: Sun, 10 May 2026 21:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.416377
- Title: EvoPref: Multi-Objective Evolutionary Optimization Discovers Diverse LLM Alignments Beyond Gradient Descent
- Title(参考訳): EvoPref:多目的進化最適化により、グラディエントな輝きを超えた横方向のLCMアライメントが発見される
- Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu,
- Abstract要約: 本稿では,多目的進化アルゴリズムであるEvoPrefを紹介する。
我々の主な貢献は、集団に基づく手法が降下よりもはるかに多様なアライメントを発見できることを示すことである。
- 参考スコア(独自算出の注目度): 13.891522069967507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based preference optimization methods for large language model (LLM) alignment suffer from preference collapse, converging to narrow behavioral modes while neglecting preference diversity. We introduce EvoPref, a multi-objective evolutionary algorithm that maintains populations of Low-Rank Adaptation (LoRA) adapters optimized across helpfulness, harmlessness, and honesty objectives using Non-dominated Sorting Genetic Algorithm II (NSGA-II) selection with archive-based diversity preservation. Our primary contribution is demonstrating that population-based methods discover substantially more diverse alignments than gradient descent. On standard benchmarks, EvoPref improves preference coverage by 18% (median 82.5% vs. 70.0% for ORPO, $p<0.001$, Wilcoxon, $n=30$) and reduces collapse rates by 47% (11.0% vs. 20.6%, $p<0.001$), while achieving competitive alignment quality (median 75.5% RewardBench vs. 75.0% for ORPO, $p<0.05$). We provide theoretical motivation extending recent multi-objective evolutionary algorithm (MOEA) runtime analysis (Dang et al., 2025) suggesting why archive-based methods escape collapse more effectively than single-trajectory optimization. Comprehensive comparisons against MOEA/D, SMS-EMOA, CMA-ES, and gradient baselines (DPO, IPO, KTO, ORPO) with rigorous statistical testing (Friedman with Holm correction, Vargha-Delaney effect sizes, median with IQR) confirm that multi-objective selection with diversity preservation is essential. This work establishes evolutionary optimization as a principled paradigm for diverse LLM alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)アライメントの勾配に基づく嗜好最適化手法は、嗜好の多様性を無視しつつ、狭い行動モードに収束する。
我々は,多目的進化型アルゴリズムであるEvoPrefを紹介した。このアルゴリズムは,非支配的ソーティング遺伝的アルゴリズムII (NSGA-II) の選択と,アーカイブに基づく多様性の保存を併用して,有用性,無害性,誠実な目的に最適化されたローランド適応 (LoRA) アダプタの個体群を維持する。
我々の主な貢献は、集団に基づく手法が勾配降下よりもはるかに多様なアライメントを発見することを示すことである。
標準ベンチマークでは、EvoPrefは好みのカバレッジを18%(中級82.5%対70.0%、ORPOは$p<0.001$、Wilcoxon、$n=30$)改善し、崩壊率を47%(11.0%対20.6%、$p<0.001$)削減し、競争力のある調整品質(中級75.5%のRewardBench対75.0%、ORPOは$p<0.05$)を達成する。
我々は,最近の多目的進化アルゴリズム (MOEA) ランタイム解析(Dang et al , 2025) を拡張した理論的動機を提供する。
MOEA/D, SMS-EMOA, CMA-ES, 勾配ベースライン(DPO, IPO, KTO, ORPO)と厳密な統計検査(ホルム補正のFriedman, Vargha-Delaney効果のサイズの中央値, IQR)との総合的な比較により, 多様性の保全による多目的選択が不可欠であることが確認された。
この研究は、多様なLLMアライメントの原則として進化的最適化を確立する。
関連論文リスト
- Optimization-Embedded Active Multi-Fidelity Surrogate Learning for Multi-Condition Airfoil Shape Optimization [0.0]
多条件翼形状最適化のための能動多面体代理モデルを開発した。
このフレームワークは、不確実性トリガーサンプリングと同期エリート性規則と、低忠実性インフォームドガウスプロセス回帰転送モデルとを結合する。
最適化された設計により、クルーズ効率は41.05%向上し、離陸リフトは最高の第1世代と比較して20.75%向上した。
論文 参考訳(メタデータ) (2026-03-17T18:43:11Z) - Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning [3.259050650999544]
Group-Based Mirror Policy Optimization (GBMPO)は、グループベースのポリシー最適化をフレキシブルなBregman分散に拡張するフレームワークである。
ハンドデザインのProbL2-GRPOは86.7%の精度でDr. GRPOベースラインよりも5.5ポイント向上している。
論文 参考訳(メタデータ) (2026-02-04T10:01:20Z) - ESSA: Evolutionary Strategies for Scalable Alignment [8.418036456622158]
我々は,前向き推論とブラックボックス最適化のみを用いて,Large Language Models (LLM) を整列する勾配のないフレームワークであるESSAを提案する。
ESSAはQwen2.5-Math-7Bのテスト精度をGSM8Kで12.6%、PRM800Kで14.8%改善し、IFEvalでLLaMA3.1-8Bの精度を22.5%向上させた。
大規模な設定では、ESSAは勾配ベースの方法よりもスケーリングが強い。
論文 参考訳(メタデータ) (2025-07-06T16:23:07Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Dynamic Multi-Objective Lion Swarm Optimization with Multi-strategy Fusion: An application in 6R robot trajectory planning [11.421300692057029]
本研究では,MF-DMOLSO (MF-DMOLSO) を用いた動的多目的ライオン群最適化手法を提案する。
MF-DMOLSOは初期化、Swarm位置更新、外部アーカイブ更新の3つの重要なコンポーネントから構成される。
6Rロボット軌道計画の適用により、MF-DMOLSOは走行時間と最大加速を8.3sと0.3pi rad/s2に最適化し、70.97%に設定された。
論文 参考訳(メタデータ) (2024-05-31T18:05:47Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。