論文の概要: Convex Optimization for Alignment and Preference Learning on a Single GPU
- arxiv url: http://arxiv.org/abs/2605.23244v1
- Date: Fri, 22 May 2026 05:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.210138
- Title: Convex Optimization for Alignment and Preference Learning on a Single GPU
- Title(参考訳): 単一GPU上でのアライメントと優先学習のための凸最適化
- Authors: Miria Feng, Mert Pilanci,
- Abstract要約: 人間の好みに合わせて微調整された大きな言語モデルは、GeminiやChatGPTといったシステムの成功を導いた。
DPO(Direct Preference Optimization)は、よりシンプルな代替手段を提供するが、一貫性のないランキング精度やGPUリソースへの高い依存といった制限がある。
本稿では,理論的保証の強い新しい軽量戦略であるConvex Optimization for Alignment and Preference Learning Algorithm (COALA)を提案する。
- 参考スコア(独自算出の注目度): 52.997197698288936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) to align with human preferences has driven the success of systems such as Gemini and ChatGPT. However, approaches like Reinforcement Learning from Human Feedback (RLHF) remain computationally expensive and complex. Direct Preference Optimization (DPO) offers a simpler alternative but has limitations such as inconsistent ranking accuracy, high dependence on GPU resources, and expensive hyperparameter tuning. We propose the Convex Optimization for Alignment and Preference Learning Algorithm (COALA): a novel lightweight strategy with strong theoretical guarantees. By leveraging the convex optimization reformulation of neural networks, COALA eliminates the need for a reference model and obtains significant reduction in both training time and VRAM consumption, thus enabling efficient training on a single GPU. Experiments across four datasets--including a 26621-sample synthetic Educational Feedback dataset--and six models (including Llama-3.1-8B) demonstrate COALA's competitive performance and efficiency while utilizing as little as ~17.6% of DPO's total TFLOPs. COALA exhibits stable, monotonically increasing rewards and reaches peak margins in significantly shorter time in comparison to traditional methods such as DPO and ORPO. To the best of our knowledge, this is the first time convex optimization has been effectively applied to preference fine-tuning of LLMs.
- Abstract(参考訳): 人間の好みに合わせて微調整された大型言語モデル(LLM)は、GeminiやChatGPTといったシステムの成功に繋がった。
しかしながら、Reinforcement Learning from Human Feedback (RLHF)のようなアプローチは計算コストが高く複雑である。
DPO(Direct Preference Optimization)は、単純な代替手段を提供するが、一貫性のないランキング精度、GPUリソースへの高い依存、高価なハイパーパラメータチューニングなどの制限がある。
本稿では,厳密な理論的保証を持つ新しい軽量戦略であるConvex Optimization for Alignment and Preference Learning Algorithm (COALA)を提案する。
ニューラルネットワークの凸最適化の再構築を活用することで、COALAは参照モデルの必要性を排除し、トレーニング時間とVRAM使用量の大幅な削減を実現し、単一のGPU上で効率的なトレーニングを可能にする。
26621サンプルの総合的な教育フィードバックデータセットを含む4つのデータセットと、6つのモデル(Llama-3.1-8Bを含む)は、COALAの競争性能と効率を実証し、DPOのトータルTFLOPの約17.6%を活用している。
COALAは、DPOやORPOのような従来の方法と比較して安定して単調に増加し、ピークマージンを著しく短くする。
我々の知る限り、LLMの微調整に凸最適化が効果的に適用されたのはこれが初めてである。
関連論文リスト
- ESSA: Evolutionary Strategies for Scalable Alignment [8.418036456622158]
我々は,前向き推論とブラックボックス最適化のみを用いて,Large Language Models (LLM) を整列する勾配のないフレームワークであるESSAを提案する。
ESSAはQwen2.5-Math-7Bのテスト精度をGSM8Kで12.6%、PRM800Kで14.8%改善し、IFEvalでLLaMA3.1-8Bの精度を22.5%向上させた。
大規模な設定では、ESSAは勾配ベースの方法よりもスケーリングが強い。
論文 参考訳(メタデータ) (2025-07-06T16:23:07Z) - KerZOO: Kernel Function Informed Zeroth-Order Optimization for Accurate and Accelerated LLM Fine-Tuning [15.81250204481401]
本稿では,勾配推定バイアスの軽減を目的としたカーネル関数ベースのZOフレームワークを提案する。
KerZOOは既存のZOベースラインと同等または優れたパフォーマンスを実現している。
本稿では,カーネル関数がZO法における推定バイアスの低減に有効な方法であることを示す。
論文 参考訳(メタデータ) (2025-05-24T21:56:03Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Constrain Alignment with Sparse Autoencoders [45.131670081186]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。