論文の概要: Enhancing Small LLM Alignment through Margin-Based Objective Modifications under Resource Constraints
- arxiv url: http://arxiv.org/abs/2508.08466v1
- Date: Mon, 11 Aug 2025 20:53:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.231677
- Title: Enhancing Small LLM Alignment through Margin-Based Objective Modifications under Resource Constraints
- Title(参考訳): 資源制約下でのマージンに基づく客観的修正による小型LLMアライメントの強化
- Authors: Daren Yao, Jinsong Yuan, Ruike Chen,
- Abstract要約: 小さな大きな言語モデル(LLM)は、出力を人間の好みに合わせるのにしばしば困難に直面します。
本稿では2つの軽量DPOベースの変種であるAdaptive Margin-Sigmoid LossとAPO-hinge-zeroを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small large language models (LLMs) often face difficulties in aligning output to human preferences, particularly when operating under severe performance gaps. In this work, we propose two lightweight DPO-based variants -- Adaptive Margin-Sigmoid Loss and APO-hinge-zero -- to better address underperformance scenarios by introducing margin-based objectives and selective update mechanisms. Our APO-hinge-zero method, which combines hinge-induced hard-example mining with the chosen-focused optimization of APO-zero, achieves strong results. In AlpacaEval, APO-hinge-zero improves the win rate by +2.0 points and the length-controlled win rate by +1.4 points compared to the APO-zero baseline. In MT-Bench, our methods maintain competitive performance in diverse categories, particularly excelling in STEM and Humanities tasks. These results demonstrate that simple modifications to preference-based objectives can significantly enhance small LLM alignment under resource constraints, offering a practical path toward more efficient deployment.
- Abstract(参考訳): 小さな大きな言語モデル(LLM)は、出力を人間の好みに合わせるのが困難であることが多い。
そこで本研究では,Adaptive Margin-Sigmoid LossとAPO-hinge-zeroの2つの軽量DPOベースの変種を提案する。
APO-hinge-zero法は, ヒンジによるハードサンプルマイニングとAPO-zeroの最適化を組み合わせ, 高い結果を得た。
AlpacaEvalでは、APO-hinge-zeroはAPO-zeroベースラインと比較して、勝利率+2.0ポイント、長制御の勝利率+1.4ポイントを改善する。
MT-Benchでは,STEMや人文科学のタスクにおいて,多種多様なカテゴリーで競争性能を保っている。
これらの結果から, 資源制約下でのLCMアライメントを著しく向上させることで, より効率的な展開に向けた実践的な道筋が示される。
関連論文リスト
- Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining [66.54211199959298]
LMMにおけるモダリティの不均衡に対処するため、新しい選好学習フレームワークMBPOを提案する。
MBPOは、強い負の反応、すなわちLLMバイアスによって誤った反応を生成することによって、より効果的なオフライン嗜好データセットを構築する。
視覚言語課題におけるLMM性能を高め、幻覚を効果的に軽減することができる。
論文 参考訳(メタデータ) (2025-05-20T03:59:05Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - GVPO: Group Variance Policy Optimization for Large Language Model Post-Training [18.431007107428574]
群変数ポリシー最適化(GVPO)は、KL制約された報酬を直接重みに含める分析解である。
GVPOには2つの大きな利点がある: ユニークな最適解、正確にはKL制約の報酬目的、および柔軟なサンプリング分布をサポートする。
GVPOは、理論的な保証を実用的適応性で統一することにより、信頼性と汎用性を備えたLLMポストトレーニングのための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-28T09:02:24Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Adaptive Group Policy Optimization: Towards Stable Training and Token-Efficient Reasoning [4.325768677318839]
本稿では,ゆらぎ学習とゼロ・アドバンテージを緩和する目的関数を改良したAdaptive Group Policy Optimization (AGPO)を提案する。
実験により,提案手法は推論ステップにおけるトークンを著しく少なくして,より安定した訓練と優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-20T08:48:57Z) - Robust LLM Alignment via Distributionally Robust Direct Preference Optimization [15.328510632723505]
大規模言語モデル(LLM)と人間の好みを一致させる上での大きな課題は、分散シフトの問題である。
We developed two novel distributionally robust direct preference optimization (DPO) algorithm、すなわち Wasserstein DPO (WDPO) and Kullback-Leibler DPO (KLDPO)。
WDPO と KLDPO が優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-04T02:03:19Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game [31.66896160733569]
そこで本稿では,より効率的な人選好最適化を目的としたAPO(Adversarial Preference Optimization)フレームワークを提案する。
提案手法は,LLMの有効性と無害性の観点から,既存のアライメントベースラインをさらに強化する。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。