論文の概要: Large Language Model as a User Simulator
- arxiv url: http://arxiv.org/abs/2308.11534v1
- Date: Mon, 21 Aug 2023 06:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:32:00.403119
- Title: Large Language Model as a User Simulator
- Title(参考訳): ユーザシミュレータとしての大規模言語モデル
- Authors: Chuyi Kong, Yaxin Fan, Xiang Wan, Feng Jiang, Benyou Wang
- Abstract要約: ChatGPTは民主化への取り組みを刺激し、実際のユーザとChatGPTの会話を活用することで、注目すべき一歩を踏み出した。
BaizeやUltraChatのような現在の取り組みは、真の人間の学習ではなく、指示に基づく人間の振る舞いをシミュレートするためにChatGPTに依存している。
以上の課題に対処するため,本研究では,真の人間機械会話から抽出した人間の質問を学習目標とし,ユーザシミュレータであるUserGPTをトレーニングし,高品質な人間中心の合成会話データセットであるRealChatを作成する。
- 参考スコア(独自算出の注目度): 42.27783372568634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unparalleled performance of closed-sourced ChatGPT has sparked efforts
towards its democratization, with notable strides made by leveraging real user
and ChatGPT conversations, as evidenced by Vicuna. However, while current
endeavors like Baize and UltraChat aim to auto-generate conversational data due
to challenges in gathering human participation, they primarily rely on ChatGPT
to simulate human behaviors based on directives rather than genuine human
learning. This results in a limited scope, diminished diversity, and an absence
of genuine multi-round conversational dynamics. To address the above issues, we
innovatively target human questions extracted from genuine human-machine
conversations as a learning goal and train a user simulator, UserGPT, to
produce a high-quality human-centric synthetic conversation dataset, RealChat.
Subsequently, this dataset trains our assistant model, ReaLM. Experimentally,
ReaLM outpaces baseline models in both Vicuna-Bench and MT-Bench by pairwise
comparison when considering equivalent training set sizes, and manual
evaluation also shows that our model is highly competitive. Impressively, when
fine-tuned with the latest LLaMA 2 model, ReaLM secured a leading score of 6.33
in the MT-Bench, outshining the contemporary same-scale models, including the
LLaMA-2-7B-chat model. Further in-depth analysis demonstrates the scalability
and transferability of our approach. A preliminary exploration into the
interplay between training set data quality and resultant model performance is
also undertaken, laying a robust groundwork for future investigations.
- Abstract(参考訳): クローズドソースのChatGPTのパフォーマンスは、Vicunaが証明したように、実際のユーザとChatGPTの会話を活用することで、その民主化への努力を喚起している。
しかし、baizeやultrachatのような現在の取り組みは、人間参加の難しさから会話データを自動生成することを目指しているが、それらは主に、本物の人間学習ではなく、指示に基づいて人間の行動をシミュレートするためにchatgptに依存している。
その結果、スコープが限定され、多様性が減少し、真のマルチラウンド会話のダイナミクスが欠如することになる。
そこで本研究では,人間と機械の対話から抽出した質問を学習目標とし,ユーザシミュレータであるusergptを訓練し,高品質な合成会話データセットであるrealchatを作成する。
このデータセットは、私たちのアシスタントモデルであるReaLMをトレーニングします。
実験的に、realmは等価なトレーニングセットサイズを考えると、vicuna-benchとmt-benchの両方のベースラインモデルよりも2対比較で上回っており、手作業による評価も高い競合性を示している。
印象的なことに、最新のLLaMA 2モデルで微調整された場合、ReaLMはMT-Benchで6.33のスコアを獲得し、LLaMA-2-7B-Chatモデルを含む同規模のモデルを上回った。
さらに詳細な分析により,我々のアプローチのスケーラビリティと伝達性を示す。
トレーニングセットデータ品質と結果モデルパフォーマンスとの相互作用に関する予備的な調査も行われ、将来の調査のための堅牢な基礎となる。
関連論文リスト
- DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity [5.388338680646657]
また, GPT-4o miniは, 複数の言語的特徴にまたがって, 実際の人間と系統的に異なることを示す。
本研究では,実際の人的インタラクションから派生した特徴を取り入れたユーザシミュレーションのプロンプトを自動生成する手法を提案する。
本手法は,特定の言語的特徴を対象とするように最適化され,大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-08-30T21:33:58Z) - Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Designing and Evaluating Multi-Chatbot Interface for Human-AI Communication: Preliminary Findings from a Persuasion Task [1.360607903399872]
本研究では, 特定の説得環境におけるマルチチャットボットコミュニケーションの効果について検討した。
マルチチャットボット通信が可能なオンライン環境を開発し,パイロット実験を行った。
本稿では,マルチチャットボットインタフェースの開発プロセスとパイロット実験による予備的な結果について述べる。
論文 参考訳(メタデータ) (2024-06-28T04:33:41Z) - ChatGPT Role-play Dataset: Analysis of User Motives and Model Naturalness [4.564433526993029]
本研究は,ChatGPTの会話における動作を,通常とロールプレイの両方で分析することにより,異なる環境での会話においてどのように振る舞うかを検討する。
本研究は,ChatGPTと対話する際のユーザのモチベーションの多様性を強調し,人間とAIの自然な会話の微妙なダイナミクスだけでなく,人間とAIのコミュニケーションの有効性向上のための新たな手段を提供する。
論文 参考訳(メタデータ) (2024-03-26T22:01:13Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。