論文の概要: PlatoLM: Teaching LLMs via a Socratic Questioning User Simulator
- arxiv url: http://arxiv.org/abs/2308.11534v3
- Date: Mon, 9 Oct 2023 15:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 04:42:31.520850
- Title: PlatoLM: Teaching LLMs via a Socratic Questioning User Simulator
- Title(参考訳): PlatoLM: ソクラティック質問ユーザシミュレータによるLLM教育
- Authors: Chuyi Kong, Yaxin Fan, Xiang Wan, Feng Jiang, Benyou Wang
- Abstract要約: ChatGPTは民主化への取り組みを刺激し、実際のユーザとChatGPTの会話を活用することで、注目すべき一歩を踏み出した。
BaizeやUltraChatといった現在の取り組みは、会話データを自動的に生成することを目指している。
我々は、高品質な人間中心の合成会話データセットを作成するために、Socraticと呼ばれるユーザーシミュレータを訓練する。
このデータセットは、PlatoLMという名前のアシスタントモデルをトレーニングするために使われました。
- 参考スコア(独自算出の注目度): 42.27783372568634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unparalleled performance of closed-sourced ChatGPT has sparked efforts
towards its democratization, with notable strides made by leveraging real user
and ChatGPT conversations, as evidenced by Vicuna. However, due to challenges
in gathering conversations involving human participation, current endeavors
like Baize and UltraChat aim to automatically generate conversational data.
They primarily rely on ChatGPT conducting roleplay to simulate human behaviors
based on instructions rather than genuine learning from humans, resulting in
limited scope, diminished diversity, and an absence of genuine multi-round
conversational dynamics. To address the above issues, we target human questions
extracted from genuine human-machine conversations as a learning goal and train
a user simulator called `Socratic' to produce a high-quality human-centric
synthetic conversation dataset. Subsequently, this dataset was used to train
our assistant model, named `PlatoLM'. Experimentally, PlatoLM outpaces baseline
models in both Vicuna-Bench and MT-Bench by pairwise comparison when
considering equivalent training set sizes, and manual evaluation also shows
that our model is highly competitive. Impressively, when fine-tuned with the
latest LLaMA 2 model, PlatoLM achieves the SOTA performance among 7B models
(including LLaMA-2-7B-chat and Vicuna-7B) in MT-Bench benchmark and in
Alpaca-Eval benchmark, it ranks second among 7B models, even beating some
larger scale models (including LLaMA-2-13B-chat and GPT-3.5). Further in-depth
analysis demonstrates the scalability and transferability of our approach. The
code is available at https://github.com/FreedomIntelligence/PlatoLM.
- Abstract(参考訳): クローズドソースのChatGPTのパフォーマンスは、Vicunaが証明したように、実際のユーザとChatGPTの会話を活用することで、その民主化への努力を喚起している。
しかし、人間の参加に関わる会話を集める上での課題から、BaizeやUltraChatといった現在の取り組みは、会話データを自動的に生成することを目指している。
彼らは主に、人間からの本物の学習ではなく、指示に基づいて人間の行動をシミュレートするために、チャットgptを実行することに頼り、スコープが限られ、多様性が減少し、真のマルチラウンド会話のダイナミクスが欠如した。
上記の課題に対処するため,真の人間機械会話から抽出した人間の質問を学習目標とし,「ソクラティック」と呼ばれるユーザシミュレーターを訓練し,高品質な人間中心の合成会話データセットを作成する。
その後、このデータセットを使用して、"PlatoLM"という名前のアシスタントモデルをトレーニングしました。
実験により,platolmは,等価なトレーニングセットサイズを考慮した場合の対数比較により,vicuna-benchおよびmt-benchのベースラインモデルを上回った。
興味深いことに、最新のLLaMA 2モデルで微調整されたPlatoLMは、MT-BenchベンチマークとAlpaca-Evalベンチマークで7Bモデル(LLaMA-2-13B-chatやGPT-3.5など)のSOTA性能を達成した。
さらに詳細な分析により,我々のアプローチのスケーラビリティと伝達性を示す。
コードはhttps://github.com/FreedomIntelligence/PlatoLMで公開されている。
関連論文リスト
- DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity [5.388338680646657]
また, GPT-4o miniは, 複数の言語的特徴にまたがって, 実際の人間と系統的に異なることを示す。
本研究では,実際の人的インタラクションから派生した特徴を取り入れたユーザシミュレーションのプロンプトを自動生成する手法を提案する。
本手法は,特定の言語的特徴を対象とするように最適化され,大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-08-30T21:33:58Z) - Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Designing and Evaluating Multi-Chatbot Interface for Human-AI Communication: Preliminary Findings from a Persuasion Task [1.360607903399872]
本研究では, 特定の説得環境におけるマルチチャットボットコミュニケーションの効果について検討した。
マルチチャットボット通信が可能なオンライン環境を開発し,パイロット実験を行った。
本稿では,マルチチャットボットインタフェースの開発プロセスとパイロット実験による予備的な結果について述べる。
論文 参考訳(メタデータ) (2024-06-28T04:33:41Z) - ChatGPT Role-play Dataset: Analysis of User Motives and Model Naturalness [4.564433526993029]
本研究は,ChatGPTの会話における動作を,通常とロールプレイの両方で分析することにより,異なる環境での会話においてどのように振る舞うかを検討する。
本研究は,ChatGPTと対話する際のユーザのモチベーションの多様性を強調し,人間とAIの自然な会話の微妙なダイナミクスだけでなく,人間とAIのコミュニケーションの有効性向上のための新たな手段を提供する。
論文 参考訳(メタデータ) (2024-03-26T22:01:13Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。