論文の概要: As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss
- arxiv url: http://arxiv.org/abs/2410.04834v1
- Date: Mon, 07 Oct 2024 08:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:38:46.785990
- Title: As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss
- Title(参考訳): ファインチューニングと同じくらい簡単な:双方向負のフィードバック損失によるLCMアライメント
- Authors: Xin Mao, Feng-Lin Li, Huimin Xu, Wei Zhang, Wang Chen, Anh Tuan Luu,
- Abstract要約: 本稿では、最適化中に安定な双方向負のフィードバック(BNF)を確立する新しいアライメント損失を提案する。
提案するBNF損失は, 対意に対照的な損失が不要となる。
我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。
- 参考スコア(独自算出の注目度): 26.860139372768092
- License:
- Abstract: Direct Preference Optimization (DPO) has emerged as a more computationally efficient alternative to Reinforcement Learning from Human Feedback (RLHF) with Proximal Policy Optimization (PPO), eliminating the need for reward models and online sampling. Despite these benefits, DPO and its variants remain sensitive to hyper-parameters and prone to instability, particularly on mathematical datasets. We argue that these issues arise from the unidirectional likelihood-derivative negative feedback inherent in the log-likelihood loss function. To address this, we propose a novel LLM alignment loss that establishes a stable Bidirectional Negative Feedback (BNF) during optimization. Our proposed BNF loss eliminates the need for pairwise contrastive losses and does not require any extra tunable hyper-parameters or pairwise preference data, streamlining the alignment pipeline to be as simple as supervised fine-tuning. We conduct extensive experiments across two challenging QA benchmarks and four reasoning benchmarks. The experimental results show that BNF achieves comparable performance to the best methods on QA benchmarks, while its performance decrease on the four reasoning benchmarks is significantly lower compared to the best methods, thus striking a better balance between value alignment and reasoning ability. In addition, we further validate the performance of BNF on non-pairwise datasets, and conduct in-depth analysis of log-likelihood and logit shifts across different preference optimization methods.
- Abstract(参考訳): 直接選好最適化(DPO)は、PPOによる人間フィードバックからの強化学習(RLHF)の代替として、報酬モデルやオンラインサンプリングの必要性を排除し、より効率的な方法として登場した。
これらの利点にもかかわらず、DPOとその変種はハイパーパラメータに敏感であり、不安定になりがちである。
これらの問題は、ログ類似損失関数に固有の一方向の電位微分負のフィードバックから生じるものであると論じる。
そこで本研究では, 安定な双方向負のフィードバック(BNF)を最適化中に確立する新たなLCMアライメント損失を提案する。
提案したBNF損失は、相互に対照的な損失を排除し、調整可能なハイパーパラメータやペアの選好データを必要としないため、アライメントパイプラインの合理化は教師付き微調整と同じくらい簡単である。
我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。
実験の結果,BNFはQAベンチマークのベストメソッドに匹敵する性能を示したが,4つの推論ベンチマークのパフォーマンス低下はベストメソッドに比べて著しく低下し,値アライメントと推論能力のバランスが良くなった。
さらに、非ペアワイズデータセット上でのBNFの性能をさらに検証し、異なる選好最適化手法におけるログやロジットシフトの詳細な分析を行う。
関連論文リスト
- Self-Evolution Fine-Tuning for Policy Optimization [22.629113943131294]
政策最適化のための自己進化微調整(SEFT)を導入する。
SEFTは、教師付き微調整の安定性と効率を保ちながら、注釈付きサンプルの必要性を排除している。
この手法の顕著な特徴の1つは、ポリシー最適化のために無注釈データを無制限に活用できることである。
論文 参考訳(メタデータ) (2024-06-16T06:38:02Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences [24.645259298082436]
我々は、人間からのフィードバック(RLHF)からの強化学習のパラダイムと、最近提案された直接選好最適化(DPO)のパラダイムを体系的に比較することにより、人間の嗜好から学ぶことのより深い理解に向けた一歩を踏み出した。
RLHFとDPOの両方によって誘導される最適下界の最小値統計的境界を導出する。
我々は解析を近似最適化設定に拡張し、RLHFとDPOの指数的に減衰する収束率を導出する。
論文 参考訳(メタデータ) (2024-03-04T09:13:14Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Implicit Rate-Constrained Optimization of Non-decomposable Objectives [37.43791617018009]
機械学習における制約付き最適化問題の一家系を考察する。
我々のキーとなる考え方は、閾値パラメータをモデルパラメータの関数として表現するレート制約のある最適化を定式化することである。
本稿では, 標準勾配法を用いて, 結果の最適化問題を解く方法を示す。
論文 参考訳(メタデータ) (2021-07-23T00:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。