論文の概要: Large Language Model as a User Simulator
- arxiv url: http://arxiv.org/abs/2308.11534v1
- Date: Mon, 21 Aug 2023 06:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:32:00.403119
- Title: Large Language Model as a User Simulator
- Title(参考訳): ユーザシミュレータとしての大規模言語モデル
- Authors: Chuyi Kong, Yaxin Fan, Xiang Wan, Feng Jiang, Benyou Wang
- Abstract要約: ChatGPTは民主化への取り組みを刺激し、実際のユーザとChatGPTの会話を活用することで、注目すべき一歩を踏み出した。
BaizeやUltraChatのような現在の取り組みは、真の人間の学習ではなく、指示に基づく人間の振る舞いをシミュレートするためにChatGPTに依存している。
以上の課題に対処するため,本研究では,真の人間機械会話から抽出した人間の質問を学習目標とし,ユーザシミュレータであるUserGPTをトレーニングし,高品質な人間中心の合成会話データセットであるRealChatを作成する。
- 参考スコア(独自算出の注目度): 42.27783372568634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unparalleled performance of closed-sourced ChatGPT has sparked efforts
towards its democratization, with notable strides made by leveraging real user
and ChatGPT conversations, as evidenced by Vicuna. However, while current
endeavors like Baize and UltraChat aim to auto-generate conversational data due
to challenges in gathering human participation, they primarily rely on ChatGPT
to simulate human behaviors based on directives rather than genuine human
learning. This results in a limited scope, diminished diversity, and an absence
of genuine multi-round conversational dynamics. To address the above issues, we
innovatively target human questions extracted from genuine human-machine
conversations as a learning goal and train a user simulator, UserGPT, to
produce a high-quality human-centric synthetic conversation dataset, RealChat.
Subsequently, this dataset trains our assistant model, ReaLM. Experimentally,
ReaLM outpaces baseline models in both Vicuna-Bench and MT-Bench by pairwise
comparison when considering equivalent training set sizes, and manual
evaluation also shows that our model is highly competitive. Impressively, when
fine-tuned with the latest LLaMA 2 model, ReaLM secured a leading score of 6.33
in the MT-Bench, outshining the contemporary same-scale models, including the
LLaMA-2-7B-chat model. Further in-depth analysis demonstrates the scalability
and transferability of our approach. A preliminary exploration into the
interplay between training set data quality and resultant model performance is
also undertaken, laying a robust groundwork for future investigations.
- Abstract(参考訳): クローズドソースのChatGPTのパフォーマンスは、Vicunaが証明したように、実際のユーザとChatGPTの会話を活用することで、その民主化への努力を喚起している。
しかし、baizeやultrachatのような現在の取り組みは、人間参加の難しさから会話データを自動生成することを目指しているが、それらは主に、本物の人間学習ではなく、指示に基づいて人間の行動をシミュレートするためにchatgptに依存している。
その結果、スコープが限定され、多様性が減少し、真のマルチラウンド会話のダイナミクスが欠如することになる。
そこで本研究では,人間と機械の対話から抽出した質問を学習目標とし,ユーザシミュレータであるusergptを訓練し,高品質な合成会話データセットであるrealchatを作成する。
このデータセットは、私たちのアシスタントモデルであるReaLMをトレーニングします。
実験的に、realmは等価なトレーニングセットサイズを考えると、vicuna-benchとmt-benchの両方のベースラインモデルよりも2対比較で上回っており、手作業による評価も高い競合性を示している。
印象的なことに、最新のLLaMA 2モデルで微調整された場合、ReaLMはMT-Benchで6.33のスコアを獲得し、LLaMA-2-7B-Chatモデルを含む同規模のモデルを上回った。
さらに詳細な分析により,我々のアプローチのスケーラビリティと伝達性を示す。
トレーニングセットデータ品質と結果モデルパフォーマンスとの相互作用に関する予備的な調査も行われ、将来の調査のための堅牢な基礎となる。
関連論文リスト
- Faithful Persona-based Conversational Dataset Generation with Large
Language Models [10.506653172302222]
高品質な会話データセットは、ユーザと通信可能なAIモデルを開発する上で不可欠である。
我々は,会話の質を向上しつつ,初期データセットを拡張するためのGenerator-Criticアーキテクチャフレームワークを提案する。
我々はPersona-Chatからシードされた20万の会話からなるSynthetic-Persona-Chatをリリースする。
論文 参考訳(メタデータ) (2023-12-15T18:23:50Z) - AutoConv: Automatically Generating Information-seeking Conversations
with Large Language Models [74.10293412011455]
合成会話生成のためのAutoConvを提案する。
具体的には,会話生成問題を言語モデリングタスクとして定式化する。
我々は、情報探索プロセスの特徴を捉えるために、人間同士の会話でLLMを微調整する。
論文 参考訳(メタデータ) (2023-08-12T08:52:40Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on
Self-Chat Data [101.63682141248069]
ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。
本稿では,ChatGPTを利用して,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。
我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。
論文 参考訳(メタデータ) (2023-04-03T17:59:09Z) - Rewarding Chatbots for Real-World Engagement with Millions of Users [1.2583983802175422]
本研究では,ユーザエンゲージメントを優先して保持性を高めるソーシャルチャットボットの開発について検討する。
提案手法では,ユーザインタラクションから収集した擬似ラベルを用いて報酬モデルのトレーニングを行う。
Chai Researchプラットフォーム上の1万人のデイリーチャットユーザを対象としたA/Bテストは、このアプローチがMCLを最大70%向上させることを示している。
今後の作業は、報酬モデルを使用してデータフライホイールを実現し、最新のユーザ会話を使用して、言語モデルと報酬モデルを交互に微調整することを目的としている。
論文 参考訳(メタデータ) (2023-03-10T18:53:52Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Deploying Lifelong Open-Domain Dialogue Learning [48.12600947313494]
本研究では,オープンドメインファンタジーの世界にある学習エージェントと人間プレイヤーが会話するロールプレイングゲームを構築し,展開する。
自動メトリクスとオンラインエンゲージメントスコアから,ゲーム中の人間との会話に関するモデルをトレーニングすることで,モデルを段階的に改善することを示す。
この学習は、実際のユーザとの会話に適用した場合のクラウドソースデータよりも効率的であり、収集するコストもはるかに安い。
論文 参考訳(メタデータ) (2020-08-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。