論文の概要: OpenChat: Advancing Open-source Language Models with Mixed-Quality Data
- arxiv url: http://arxiv.org/abs/2309.11235v2
- Date: Sat, 16 Mar 2024 04:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:52:43.891377
- Title: OpenChat: Advancing Open-source Language Models with Mixed-Quality Data
- Title(参考訳): OpenChat: 混合品質データによるオープンソースの言語モデルの改善
- Authors: Guan Wang, Sijie Cheng, Xianyuan Zhan, Xiangang Li, Sen Song, Yang Liu,
- Abstract要約: 混合品質データを用いたオープンソースの言語モデルを進化させる新しいフレームワーク、OpenChatを提案する。
提案するC(onditioned)-RLFTは,異なるデータソースを粗い報酬ラベルとみなし,クラス条件のポリシーを学習する。
C-RLFTで微調整したopenchat-13bは、13bのオープンソース言語モデルの中で最も高い平均性能を達成する。
- 参考スコア(独自算出の注目度): 29.938434364765534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, open-source large language models like LLaMA have emerged. Recent developments have incorporated supervised fine-tuning (SFT) and reinforcement learning fine-tuning (RLFT) to align these models with human goals. However, SFT methods treat all training data with mixed quality equally, while RLFT methods require high-quality pairwise or ranking-based preference data. In this study, we present a novel framework, named OpenChat, to advance open-source language models with mixed-quality data. Specifically, we consider the general SFT training data, consisting of a small amount of expert data mixed with a large proportion of sub-optimal data, without any preference labels. We propose the C(onditioned)-RLFT, which regards different data sources as coarse-grained reward labels and learns a class-conditioned policy to leverage complementary data quality information. Interestingly, the optimal policy in C-RLFT can be easily solved through single-stage, RL-free supervised learning, which is lightweight and avoids costly human preference labeling. Through extensive experiments on three standard benchmarks, our openchat-13b fine-tuned with C-RLFT achieves the highest average performance among all 13b open-source language models. Moreover, we use AGIEval to validate the model generalization performance, in which only openchat-13b surpasses the base model. Finally, we conduct a series of analyses to shed light on the effectiveness and robustness of OpenChat. Our code, data, and models are publicly available at https://github.com/imoneoi/openchat and https://huggingface.co/openchat.
- Abstract(参考訳): 今日では、LLaMAのようなオープンソースの大規模言語モデルが登場している。
近年、教師付き微調整(SFT)と強化学習微調整(RLFT)が取り入れられ、これらのモデルと人間の目標が一致している。
しかし、SFT法は、全てのトレーニングデータを均等に混合品質で扱う一方、RLFT法は高品質なペアワイドまたはランキングベースの選好データを必要とする。
本研究では,混合品質データを用いたオープンソースの言語モデルを構築するために,OpenChatという新しいフレームワークを提案する。
具体的には、限られた量の専門家データと大量の準最適データとを混合した一般的なSFTトレーニングデータについて、選好ラベルなしで検討する。
本稿では,C(onditioned)-RLFTを提案する。C(onditioned)-RLFTは,異なるデータソースを粗大な報酬ラベルとみなし,相補的なデータ品質情報を活用するためのクラス条件付きポリシーを学習する。
興味深いことに、C-RLFTの最適ポリシーは、軽量でコストのかかる人選好ラベリングを回避したシングルステージのRLフリー教師あり学習によって容易に解決できる。
C-RLFTで微調整したopenchat-13bは,3つの標準ベンチマークの広範な実験により,13bのオープンソース言語モデルの中で最も高い平均性能を実現している。
さらに,AGIEvalを用いてモデル一般化性能を検証する。
最後に、OpenChatの有効性と堅牢性について、一連の分析を行います。
私たちのコード、データ、モデルは、https://github.com/imoneoi/openchatとhttps://huggingface.co/openchatで公開されています。
関連論文リスト
- DEM: Distribution Edited Model for Training with Mixed Data Distributions [15.064693005258324]
混合データ分散を用いたトレーニングは、マルチタスクと命令追従モデルを作成する上で、一般的かつ重要な部分である。
データミキシング手法はこの問題に部分的に対処するが、データソース間の準最適性能を持つ。
本稿では,各データソースで個別に訓練されたモデルとベースモデルを組み合わせることで,データソースの最適化を効率化する,シンプルで効率的な代替案を提案する。
論文 参考訳(メタデータ) (2024-06-21T18:07:46Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning [19.100022935748225]
データ選択は、大規模ビジュアル言語モデル(例えば、CLIP)のコア問題として浮上した。
3つの主要なデータ選択アプローチは、(1)データ選択を支援するために外部のCLIPモデルを活用すること、(2)高品質なデータを選択するのにより効果的な新しいCLIPスタイルの埋め込みモデルをトレーニングすること、(3)より優れたメトリクスや戦略をCLIP埋め込みに普遍的に適用することである。
論文 参考訳(メタデータ) (2024-05-29T22:19:57Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Exploiting Label Skews in Federated Learning with Model Concatenation [39.38427550571378]
Federated Learning(FL)は、生データを交換することなく、さまざまなデータオーナでディープラーニングを実行するための、有望なソリューションとして登場した。
非IID型では、ラベルスキューは困難であり、画像分類やその他のタスクで一般的である。
我々は,これらの局所モデルをグローバルモデルの基礎として分解する,シンプルで効果的なアプローチであるFedConcatを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:44:52Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Distilled One-Shot Federated Learning [13.294757670979031]
そこで本稿では, DOSFL (Distilled One-Shot Federated Learning) を提案する。
たった1ラウンドで、各クライアントはプライベートデータセットを蒸留し、合成データ(画像や文など)をサーバに送る。
この軽量で勾配のない設計では、DOSFLの通信コストはFedAvgよりも最大で3桁少ない。
論文 参考訳(メタデータ) (2020-09-17T01:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。