論文の概要: Xwin-LM: Strong and Scalable Alignment Practice for LLMs
- arxiv url: http://arxiv.org/abs/2405.20335v1
- Date: Thu, 30 May 2024 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 12:50:16.756126
- Title: Xwin-LM: Strong and Scalable Alignment Practice for LLMs
- Title(参考訳): Xwin-LM: LLMの強力でスケーラブルなアライメントプラクティス
- Authors: Bolin Ni, JingCheng Hu, Yixuan Wei, Houwen Peng, Zheng Zhang, Gaofeng Meng, Han Hu,
- Abstract要約: 我々は,大規模言語モデル(LLM)のためのアライメント手法の総合スイートであるXwin-LMを提案する。
このスイートには、教師付き微調整(SFT)、報酬モデリング(RM)、拒絶サンプリング微調整(RS)、直接選好最適化(DPO)など、いくつかの重要な技術が含まれている。
AlpacaEval と MT-bench の評価は,パイプライン全体において一貫した,重要な改善点を示している。
- 参考スコア(独自算出の注目度): 42.51181983426062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Xwin-LM, a comprehensive suite of alignment methodologies for large language models (LLMs). This suite encompasses several key techniques, including supervised finetuning (SFT), reward modeling (RM), rejection sampling finetuning (RS), and direct preference optimization (DPO). The key components are as follows: (1) Xwin-LM-SFT, models initially finetuned with high-quality instruction data; (2) Xwin-Pair, a large-scale, multi-turn preference dataset meticulously annotated using GPT-4; (3) Xwin-RM, reward models trained on Xwin-Pair, developed at scales of 7B, 13B, and 70B parameters; (4) Xwin-Set, a multiwise preference dataset in which each prompt is linked to 64 unique responses generated by Xwin-LM-SFT and scored by Xwin-RM; (5) Xwin-LM-RS, models finetuned with the highest-scoring responses from Xwin-Set; (6) Xwin-LM-DPO, models further optimized on Xwin-Set using the DPO algorithm. Our evaluations on AlpacaEval and MT-bench demonstrate consistent and significant improvements across the pipeline, demonstrating the strength and scalability of Xwin-LM. The repository https://github.com/Xwin-LM/Xwin-LM will be continually updated to foster community research.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)のためのアライメント手法を包括的にまとめたXwin-LMを提案する。
このスイートには、教師付き微調整(SFT)、報酬モデリング(RM)、拒絶サンプリング微調整(RS)、直接選好最適化(DPO)など、いくつかの重要な技術が含まれている。
主な構成要素は,(1)Xwin-LM-SFT,(2)Xwin-LM-RS,(2)GPT-4,(3)Xwin-RM,(3)Xwin-Pairで訓練された報酬モデル,7B,13B,70Bパラメータのスケールで開発された報酬モデル,(4)Xwin-LM-SFT,(5)Xwin-LM-RS,(5)Xwin-LM-RS,およびXwin-Set,(6)Xwin-LM-DPODモデルである。
AlpacaEval と MT-bench に対する評価は,パイプライン全体の一貫性と顕著な改善を示し,Xwin-LM の強度とスケーラビリティを実証した。
リポジトリ https://github.com/Xwin-LM/Xwin-LMは、コミュニティ研究を促進するために継続的に更新される。
関連論文リスト
- Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。
DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。
本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文 参考訳(メタデータ) (2024-10-31T07:28:22Z) - Binary Classifier Optimization for Large Language Model Alignment [4.61411484523337]
本稿では,バイナリ信号によるアライメントの成功を説明する理論的基礎について述べる。
報酬シフトと基礎となる分布マッチングという,効果的なアライメントのための2つの手法を同定する。
我々のモデルは、2つの基本LLMと3つの異なるバイナリ信号データセット間で有効でロバストなアライメントを一貫して示す。
論文 参考訳(メタデータ) (2024-04-06T15:20:59Z) - Mixture-Models: a one-stop Python Library for Model-based Clustering
using various Mixture Models [4.60168321737677]
textttMixture-Modelsは、Gaussian Mixture Models(GMM)とその変種を適合させるオープンソースのPythonライブラリである。
様々な第1/第2次最適化ルーチンを使用して、これらのモデルの実装と分析を合理化する。
このライブラリは、BIC、AIC、ログライクな推定など、ユーザフレンドリーなモデル評価ツールを提供する。
論文 参考訳(メタデータ) (2024-02-08T19:34:24Z) - XGen-7B Technical Report [138.71625147048377]
XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2023-09-07T02:20:03Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - HYPPO: A Surrogate-Based Multi-Level Parallelism Tool for Hyperparameter
Optimization [0.2844198651668139]
HYPPOは適応的な代理モデルを使用し、モデル予測の不確実性を説明して、堅牢な予測を行う正確で信頼性の高いモデルを見つける。
本稿では,時系列予測と画像分類問題に対する様々なソフトウェア機能と,コンピュータ断層画像再構成における科学的応用について述べる。
論文 参考訳(メタデータ) (2021-10-04T20:14:22Z) - A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。
混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-14T16:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。