Fugu-MT 論文翻訳(概要): Xwin-LM: Strong and Scalable Alignment Practice for LLMs

論文の概要: Xwin-LM: Strong and Scalable Alignment Practice for LLMs

arxiv url: http://arxiv.org/abs/2405.20335v1
Date: Thu, 30 May 2024 17:59:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 12:50:16.756126
Title: Xwin-LM: Strong and Scalable Alignment Practice for LLMs
Title（参考訳）: Xwin-LM: LLMの強力でスケーラブルなアライメントプラクティス
Authors: Bolin Ni, JingCheng Hu, Yixuan Wei, Houwen Peng, Zheng Zhang, Gaofeng Meng, Han Hu,
Abstract要約: 我々は,大規模言語モデル(LLM)のためのアライメント手法の総合スイートであるXwin-LMを提案する。このスイートには、教師付き微調整(SFT)、報酬モデリング(RM)、拒絶サンプリング微調整(RS)、直接選好最適化(DPO)など、いくつかの重要な技術が含まれている。 AlpacaEval と MT-bench の評価は,パイプライン全体において一貫した,重要な改善点を示している。
参考スコア（独自算出の注目度）: 42.51181983426062
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present Xwin-LM, a comprehensive suite of alignment methodologies for large language models (LLMs). This suite encompasses several key techniques, including supervised finetuning (SFT), reward modeling (RM), rejection sampling finetuning (RS), and direct preference optimization (DPO). The key components are as follows: (1) Xwin-LM-SFT, models initially finetuned with high-quality instruction data; (2) Xwin-Pair, a large-scale, multi-turn preference dataset meticulously annotated using GPT-4; (3) Xwin-RM, reward models trained on Xwin-Pair, developed at scales of 7B, 13B, and 70B parameters; (4) Xwin-Set, a multiwise preference dataset in which each prompt is linked to 64 unique responses generated by Xwin-LM-SFT and scored by Xwin-RM; (5) Xwin-LM-RS, models finetuned with the highest-scoring responses from Xwin-Set; (6) Xwin-LM-DPO, models further optimized on Xwin-Set using the DPO algorithm. Our evaluations on AlpacaEval and MT-bench demonstrate consistent and significant improvements across the pipeline, demonstrating the strength and scalability of Xwin-LM. The repository https://github.com/Xwin-LM/Xwin-LM will be continually updated to foster community research.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)のためのアライメント手法を包括的にまとめたXwin-LMを提案する。このスイートには、教師付き微調整(SFT)、報酬モデリング(RM)、拒絶サンプリング微調整(RS)、直接選好最適化(DPO)など、いくつかの重要な技術が含まれている。主な構成要素は,(1)Xwin-LM-SFT,(2)Xwin-LM-RS,(2)GPT-4,(3)Xwin-RM,(3)Xwin-Pairで訓練された報酬モデル,7B,13B,70Bパラメータのスケールで開発された報酬モデル,(4)Xwin-LM-SFT,(5)Xwin-LM-RS,(5)Xwin-LM-RS,およびXwin-Set,(6)Xwin-LM-DPODモデルである。 AlpacaEval と MT-bench に対する評価は,パイプライン全体の一貫性と顕著な改善を示し,Xwin-LM の強度とスケーラビリティを実証した。リポジトリ https://github.com/Xwin-LM/Xwin-LMは、コミュニティ研究を促進するために継続的に更新される。

関連論文リスト

MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
Flexible Bivariate Beta Mixture Model: A Probabilistic Approach for Clustering Complex Data Structures [2.07180164747172]
クラスタリングは分析と機械学習に不可欠である。 k$meansやGaussian Mixture Models (GMM)といった従来のアルゴリズムは、非データで失敗することが多い。実験コードはhttps://github.com/MB-and-yungpeng/MM-and-FBBMMで公開します。
論文参考訳（メタデータ） (2025-02-27T10:07:43Z)
SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters [40.64474084442168]
SimPERは言語モデルアライメントのための効果的な選好最適化アルゴリズムである。 SimPERは実装が容易で、高価なハイパーパラメータチューニングと参照モデルを必要としない。 SimPERは、既存のアプローチよりも一貫して、大幅に優れています。
論文参考訳（メタデータ） (2025-02-02T19:25:41Z)
InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。 IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文参考訳（メタデータ） (2025-01-21T18:47:32Z)
Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。 DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文参考訳（メタデータ） (2024-10-31T07:28:22Z)
Binary Classifier Optimization for Large Language Model Alignment [4.61411484523337]
本稿では,バイナリ信号によるアライメントの成功を説明する理論的基礎について述べる。報酬シフトと基礎となる分布マッチングという,効果的なアライメントのための2つの手法を同定する。我々のモデルは、2つの基本LLMと3つの異なるバイナリ信号データセット間で有効でロバストなアライメントを一貫して示す。
論文参考訳（メタデータ） (2024-04-06T15:20:59Z)
Mixture-Models: a one-stop Python Library for Model-based Clustering using various Mixture Models [4.60168321737677]
textttMixture-Modelsは、Gaussian Mixture Models(GMM)とその変種を適合させるオープンソースのPythonライブラリである。様々な第1/第2次最適化ルーチンを使用して、これらのモデルの実装と分析を合理化する。このライブラリは、BIC、AIC、ログライクな推定など、ユーザフレンドリーなモデル評価ツールを提供する。
論文参考訳（メタデータ） (2024-02-08T19:34:24Z)
XGen-7B Technical Report [138.71625147048377]
XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
論文参考訳（メタデータ） (2023-09-07T02:20:03Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。 MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文参考訳（メタデータ） (2023-05-22T16:13:05Z)
HYPPO: A Surrogate-Based Multi-Level Parallelism Tool for Hyperparameter Optimization [0.2844198651668139]
HYPPOは適応的な代理モデルを使用し、モデル予測の不確実性を説明して、堅牢な予測を行う正確で信頼性の高いモデルを見つける。本稿では,時系列予測と画像分類問題に対する様々なソフトウェア機能と,コンピュータ断層画像再構成における科学的応用について述べる。
論文参考訳（メタデータ） (2021-10-04T20:14:22Z)
A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文参考訳（メタデータ） (2021-06-14T16:03:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。