論文の概要: Xwin-LM: Strong and Scalable Alignment Practice for LLMs
- arxiv url: http://arxiv.org/abs/2405.20335v1
- Date: Thu, 30 May 2024 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 12:50:16.756126
- Title: Xwin-LM: Strong and Scalable Alignment Practice for LLMs
- Title(参考訳): Xwin-LM: LLMの強力でスケーラブルなアライメントプラクティス
- Authors: Bolin Ni, JingCheng Hu, Yixuan Wei, Houwen Peng, Zheng Zhang, Gaofeng Meng, Han Hu,
- Abstract要約: 我々は,大規模言語モデル(LLM)のためのアライメント手法の総合スイートであるXwin-LMを提案する。
このスイートには、教師付き微調整(SFT)、報酬モデリング(RM)、拒絶サンプリング微調整(RS)、直接選好最適化(DPO)など、いくつかの重要な技術が含まれている。
AlpacaEval と MT-bench の評価は,パイプライン全体において一貫した,重要な改善点を示している。
- 参考スコア(独自算出の注目度): 42.51181983426062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Xwin-LM, a comprehensive suite of alignment methodologies for large language models (LLMs). This suite encompasses several key techniques, including supervised finetuning (SFT), reward modeling (RM), rejection sampling finetuning (RS), and direct preference optimization (DPO). The key components are as follows: (1) Xwin-LM-SFT, models initially finetuned with high-quality instruction data; (2) Xwin-Pair, a large-scale, multi-turn preference dataset meticulously annotated using GPT-4; (3) Xwin-RM, reward models trained on Xwin-Pair, developed at scales of 7B, 13B, and 70B parameters; (4) Xwin-Set, a multiwise preference dataset in which each prompt is linked to 64 unique responses generated by Xwin-LM-SFT and scored by Xwin-RM; (5) Xwin-LM-RS, models finetuned with the highest-scoring responses from Xwin-Set; (6) Xwin-LM-DPO, models further optimized on Xwin-Set using the DPO algorithm. Our evaluations on AlpacaEval and MT-bench demonstrate consistent and significant improvements across the pipeline, demonstrating the strength and scalability of Xwin-LM. The repository https://github.com/Xwin-LM/Xwin-LM will be continually updated to foster community research.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)のためのアライメント手法を包括的にまとめたXwin-LMを提案する。
このスイートには、教師付き微調整(SFT)、報酬モデリング(RM)、拒絶サンプリング微調整(RS)、直接選好最適化(DPO)など、いくつかの重要な技術が含まれている。
主な構成要素は,(1)Xwin-LM-SFT,(2)Xwin-LM-RS,(2)GPT-4,(3)Xwin-RM,(3)Xwin-Pairで訓練された報酬モデル,7B,13B,70Bパラメータのスケールで開発された報酬モデル,(4)Xwin-LM-SFT,(5)Xwin-LM-RS,(5)Xwin-LM-RS,およびXwin-Set,(6)Xwin-LM-DPODモデルである。
AlpacaEval と MT-bench に対する評価は,パイプライン全体の一貫性と顕著な改善を示し,Xwin-LM の強度とスケーラビリティを実証した。
リポジトリ https://github.com/Xwin-LM/Xwin-LMは、コミュニティ研究を促進するために継続的に更新される。
関連論文リスト
- SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters [40.64474084442168]
SimPERは言語モデルアライメントのための効果的な選好最適化アルゴリズムである。
SimPERは実装が容易で、高価なハイパーパラメータチューニングと参照モデルを必要としない。
SimPERは、既存のアプローチよりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2025-02-02T19:25:41Z) - InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。
IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文 参考訳(メタデータ) (2025-01-21T18:47:32Z) - Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。
DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。
本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文 参考訳(メタデータ) (2024-10-31T07:28:22Z) - XGen-7B Technical Report [138.71625147048377]
XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2023-09-07T02:20:03Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - HYPPO: A Surrogate-Based Multi-Level Parallelism Tool for Hyperparameter
Optimization [0.2844198651668139]
HYPPOは適応的な代理モデルを使用し、モデル予測の不確実性を説明して、堅牢な予測を行う正確で信頼性の高いモデルを見つける。
本稿では,時系列予測と画像分類問題に対する様々なソフトウェア機能と,コンピュータ断層画像再構成における科学的応用について述べる。
論文 参考訳(メタデータ) (2021-10-04T20:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。