論文の概要: PlatoLM: Teaching LLMs via a Socratic Questioning User Simulator
- arxiv url: http://arxiv.org/abs/2308.11534v4
- Date: Thu, 12 Oct 2023 08:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:45:50.191839
- Title: PlatoLM: Teaching LLMs via a Socratic Questioning User Simulator
- Title(参考訳): PlatoLM: ソクラティック質問ユーザシミュレータによるLLM教育
- Authors: Chuyi Kong, Yaxin Fan, Xiang Wan, Feng Jiang, Benyou Wang
- Abstract要約: ChatGPTは民主化への取り組みを刺激し、実際のユーザとChatGPTの会話を活用することで、注目すべき一歩を踏み出した。
BaizeやUltraChatといった現在の取り組みは、会話データを自動的に生成することを目指している。
我々は、高品質な人間中心の合成会話データセットを作成するために、Socraticと呼ばれるユーザーシミュレータを訓練する。
このデータセットは、PlatoLMという名前のアシスタントモデルをトレーニングするために使われました。
- 参考スコア(独自算出の注目度): 42.27783372568634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unparalleled performance of closed-sourced ChatGPT has sparked efforts
towards its democratization, with notable strides made by leveraging real user
and ChatGPT conversations, as evidenced by Vicuna. However, due to challenges
in gathering conversations involving human participation, current endeavors
like Baize and UltraChat aim to automatically generate conversational data.
They primarily rely on ChatGPT conducting roleplay to simulate human behaviors
based on instructions rather than genuine learning from humans, resulting in
limited scope, diminished diversity, and an absence of genuine multi-round
conversational dynamics. To address the above issues, we target human questions
extracted from genuine human-machine conversations as a learning goal and train
a user simulator called `Socratic' to produce a high-quality human-centric
synthetic conversation dataset. Subsequently, this dataset was used to train
our assistant model, named `PlatoLM'. Experimentally, PlatoLM outpaces baseline
models in both Vicuna-Bench and MT-Bench by pairwise comparison when
considering equivalent training set sizes, and manual evaluation also shows
that our model is highly competitive. Impressively, when fine-tuned with the
latest LLaMA 2 model, PlatoLM achieves the SOTA performance among 7B models
(including LLaMA-2-7B-chat and Vicuna-7B) in MT-Bench benchmark and in
Alpaca-Eval benchmark, it ranks second among 7B models, even beating some
larger scale models (including LLaMA-2-13B-chat and GPT-3.5). Further in-depth
analysis demonstrates the scalability and transferability of our approach. The
code is available at https://github.com/FreedomIntelligence/PlatoLM.
- Abstract(参考訳): クローズドソースのChatGPTのパフォーマンスは、Vicunaが証明したように、実際のユーザとChatGPTの会話を活用することで、その民主化への努力を喚起している。
しかし、人間の参加に関わる会話を集める上での課題から、BaizeやUltraChatといった現在の取り組みは、会話データを自動的に生成することを目指している。
彼らは主に、人間からの本物の学習ではなく、指示に基づいて人間の行動をシミュレートするために、チャットgptを実行することに頼り、スコープが限られ、多様性が減少し、真のマルチラウンド会話のダイナミクスが欠如した。
上記の課題に対処するため,真の人間機械会話から抽出した人間の質問を学習目標とし,「ソクラティック」と呼ばれるユーザシミュレーターを訓練し,高品質な人間中心の合成会話データセットを作成する。
その後、このデータセットを使用して、"PlatoLM"という名前のアシスタントモデルをトレーニングしました。
実験により,platolmは,等価なトレーニングセットサイズを考慮した場合の対数比較により,vicuna-benchおよびmt-benchのベースラインモデルを上回った。
興味深いことに、最新のLLaMA 2モデルで微調整されたPlatoLMは、MT-BenchベンチマークとAlpaca-Evalベンチマークで7Bモデル(LLaMA-2-13B-chatやGPT-3.5など)のSOTA性能を達成した。
さらに詳細な分析により,我々のアプローチのスケーラビリティと伝達性を示す。
コードはhttps://github.com/FreedomIntelligence/PlatoLMで公開されている。
関連論文リスト
- Faithful Persona-based Conversational Dataset Generation with Large
Language Models [10.506653172302222]
高品質な会話データセットは、ユーザと通信可能なAIモデルを開発する上で不可欠である。
我々は,会話の質を向上しつつ,初期データセットを拡張するためのGenerator-Criticアーキテクチャフレームワークを提案する。
我々はPersona-Chatからシードされた20万の会話からなるSynthetic-Persona-Chatをリリースする。
論文 参考訳(メタデータ) (2023-12-15T18:23:50Z) - AutoConv: Automatically Generating Information-seeking Conversations
with Large Language Models [74.10293412011455]
合成会話生成のためのAutoConvを提案する。
具体的には,会話生成問題を言語モデリングタスクとして定式化する。
我々は、情報探索プロセスの特徴を捉えるために、人間同士の会話でLLMを微調整する。
論文 参考訳(メタデータ) (2023-08-12T08:52:40Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on
Self-Chat Data [101.63682141248069]
ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。
本稿では,ChatGPTを利用して,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。
我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。
論文 参考訳(メタデータ) (2023-04-03T17:59:09Z) - Rewarding Chatbots for Real-World Engagement with Millions of Users [1.2583983802175422]
本研究では,ユーザエンゲージメントを優先して保持性を高めるソーシャルチャットボットの開発について検討する。
提案手法では,ユーザインタラクションから収集した擬似ラベルを用いて報酬モデルのトレーニングを行う。
Chai Researchプラットフォーム上の1万人のデイリーチャットユーザを対象としたA/Bテストは、このアプローチがMCLを最大70%向上させることを示している。
今後の作業は、報酬モデルを使用してデータフライホイールを実現し、最新のユーザ会話を使用して、言語モデルと報酬モデルを交互に微調整することを目的としている。
論文 参考訳(メタデータ) (2023-03-10T18:53:52Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Deploying Lifelong Open-Domain Dialogue Learning [48.12600947313494]
本研究では,オープンドメインファンタジーの世界にある学習エージェントと人間プレイヤーが会話するロールプレイングゲームを構築し,展開する。
自動メトリクスとオンラインエンゲージメントスコアから,ゲーム中の人間との会話に関するモデルをトレーニングすることで,モデルを段階的に改善することを示す。
この学習は、実際のユーザとの会話に適用した場合のクラウドソースデータよりも効率的であり、収集するコストもはるかに安い。
論文 参考訳(メタデータ) (2020-08-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。