論文の概要: COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences
- arxiv url: http://arxiv.org/abs/2410.23223v1
- Date: Wed, 30 Oct 2024 17:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:12.656107
- Title: COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences
- Title(参考訳): COMAL:LLMの汎用化のための収束メタアルゴリズム
- Authors: Yixin Liu, Argyris Oikonomou, Weiqiang Zheng, Yang Cai, Arman Cohan,
- Abstract要約: 本稿では,言語モデルアライメントのためのメタアルゴリズムである Convergent Meta Alignment Algorithm (COMAL) を提案する。
我々のメタアルゴリズムは単純であり、RLHFと優先最適化のために設計された多くの既存手法と統合することができる。
- 参考スコア(独自算出の注目度): 31.988100672680154
- License:
- Abstract: Many alignment methods, including reinforcement learning from human feedback (RLHF), rely on the Bradley-Terry reward assumption, which is insufficient to capture the full range of general human preferences. To achieve robust alignment with general preferences, we model the alignment problem as a two-player zero-sum game, where the Nash equilibrium policy guarantees a 50% win rate against any competing policy. However, previous algorithms for finding the Nash policy either diverge or converge to a Nash policy in a modified game, even in a simple synthetic setting, thereby failing to maintain the 50% win rate guarantee against all other policies. We propose a meta-algorithm, Convergent Meta Alignment Algorithm (COMAL), for language model alignment with general preferences, inspired by convergent algorithms in game theory. Theoretically, we prove that our meta-algorithm converges to an exact Nash policy in the last iterate. Additionally, our meta-algorithm is simple and can be integrated with many existing methods designed for RLHF and preference optimization with minimal changes. Experimental results demonstrate the effectiveness of the proposed framework when combined with existing preference policy optimization methods.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)を含む多くのアライメント手法は、Bradley-Terry報奨の仮定に依存しており、一般的な人間の嗜好の完全な範囲を捉えるには不十分である。
一般の嗜好に頑健なアライメントを実現するため,アライメント問題を2プレーヤゼロサムゲームとしてモデル化し,ナッシュ均衡政策は競合する任意のポリシーに対して50%の勝利率を保証する。
しかし、ナッシュポリシーを見つけるための以前のアルゴリズムは、単純な合成設定であっても、修正されたゲームにおいてナッシュポリシーに分岐または収束し、他のすべてのポリシーに対して50%の勝利率を保証するのに失敗する。
本稿では,ゲーム理論における収束アルゴリズムに着想を得た言語モデルアライメントのためのメタアルゴリズム Convergent Meta Alignment Algorithm (COMAL) を提案する。
理論的には、我々のメタアルゴリズムが最後の反復で正確なナッシュポリシーに収束することを証明している。
さらに、我々のメタアルゴリズムは単純で、RLHFや好みの最適化のために設計された多くの既存手法と最小限の変更で統合できる。
提案手法と既存の選好ポリシー最適化手法を組み合わせることで,提案手法の有効性を実証した。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文 参考訳(メタデータ) (2024-06-13T20:12:09Z) - Bridging the Gap between Newton-Raphson Method and Regularized Policy
Iteration [13.166738075816493]
規則化されたポリシー反復は、強い凸関数を持つベルマン方程式を滑らかにする条件において、標準ニュートン・ラフソン法と厳密に等価であることを示す。
正規化政策反復が大域的線形収束を持ち、そのレートが$gamma$ (discount factor)であることを証明する。
また、正規化ポリシー反復の修正版、すなわち有限ステップのポリシー評価はニュートン法と等価であり、ニュートンの反復式はトランカットされた反復で解かれることを示す。
論文 参考訳(メタデータ) (2023-10-11T05:55:20Z) - Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum
Markov Games [10.805520579293747]
ゲームに対するナイーブなポリシー反復の単純な変種は指数関数的に高速に収束することを示す。
また、線形マルコフゲームの関数近似設定において、ルックアヘッドポリシーを効率的に実装できることを示す。
論文 参考訳(メタデータ) (2023-03-17T01:20:22Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文 参考訳(メタデータ) (2020-10-08T18:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。