論文の概要: Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models
- arxiv url: http://arxiv.org/abs/2406.04274v1
- Date: Thu, 6 Jun 2024 17:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:40:27.634914
- Title: Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models
- Title(参考訳): 言語モデルのための確率的でスケーラブルなオフラインアライメント
- Authors: Xiang Ji, Sanjeev Kulkarni, Mengdi Wang, Tengyang Xie,
- Abstract要約: 本研究では,大規模言語モデル(LLM)とオフラインの嗜好データとの整合性について検討する。
オフラインRL文献から平均的な悲観的手法にインスパイアされた,セルフプレイによる新たなオフライン優先最適化手法であるSPACを提案する。
- 参考スコア(独自算出の注目度): 44.38073745307387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work studies the challenge of aligning large language models (LLMs) with offline preference data. We focus on alignment by Reinforcement Learning from Human Feedback (RLHF) in particular. While popular preference optimization methods exhibit good empirical performance in practice, they are not theoretically guaranteed to converge to the optimal policy and can provably fail when the data coverage is sparse by classical offline reinforcement learning (RL) results. On the other hand, a recent line of work has focused on theoretically motivated preference optimization methods with provable guarantees, but these are not computationally efficient for large-scale applications like LLM alignment. To bridge this gap, we propose SPAC, a new offline preference optimization method with self-play, inspired by the on-average pessimism technique from the offline RL literature, to be the first provable and scalable approach to LLM alignment. We both provide theoretical analysis for its convergence under single-policy concentrability for the general function approximation setting and demonstrate its competitive empirical performance for LLM alignment on a 7B Mistral model with Open LLM Leaderboard evaluations.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)とオフラインの嗜好データとの整合性について検討する。
我々は、特に人間フィードバックからの強化学習(RLHF)によるアライメントに焦点を当てる。
一般的な選好最適化手法は、実際は優れた経験的性能を示すが、理論上は最適ポリシーに収束することが保証されておらず、古典的なオフライン強化学習(RL)の結果によってデータカバレッジが不足している場合に確実に失敗する可能性がある。
一方、近年の一連の研究は、証明可能な保証を持つ理論上の動機付けされた選好最適化手法に焦点を当てているが、LLMアライメントのような大規模アプリケーションでは計算効率が良くない。
このギャップを埋めるために,SPACを提案する。SPACは,LLMアライメントに対する最初の証明可能かつスケーラブルなアプローチである,オフラインRL文献から平均的な悲観的手法に着想を得た,セルフプレイによる新しいオフライン優先最適化手法である。
一般関数近似設定における単一政治集中性の下での収束に関する理論的解析と、7BMistralモデルにおけるLLMアライメントの競合的実証性能の証明を行う。
関連論文リスト
- Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Models Alignment [29.197712664347794]
我々は,オリジナルゲームのNEに最終項目収束を達成できる新しいアプローチである磁気優先最適化(MPO)を導入する。
提案アルゴリズムは理論的に健全かつ実用的であることを保証するため,単純かつ効果的な実装を提案する。
論文 参考訳(メタデータ) (2024-10-22T05:51:34Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - The Importance of Online Data: Understanding Preference Fine-tuning via Coverage [25.782644676250115]
選好微調整におけるオンライン手法とオフライン手法の類似点と相違点について検討した。
グローバルなカバレッジ条件は、オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示す。
KL正規化のためのオンラインデータとコントラストベースの選好最適化にオフラインデータを利用するハイブリッド選好最適化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-06-03T15:51:04Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。