論文の概要: DialogueForge: LLM Simulation of Human-Chatbot Dialogue
- arxiv url: http://arxiv.org/abs/2507.15752v1
- Date: Mon, 21 Jul 2025 16:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.472246
- Title: DialogueForge: LLM Simulation of Human-Chatbot Dialogue
- Title(参考訳): 対話語:人間-チャットボット対話のLLMシミュレーション
- Authors: Ruizhe Zhu, Hao Zhu, Yaxuan Li, Syang Zhou, Shijing Cai, Malgorzata Lazuka, Elliott Ash,
- Abstract要約: 人間のチャットボットスタイルでAIシミュレーション会話を生成するためのフレームワークとして,ダイアログForgeを提案する。
生成された会話毎に、DialogueForgeは実際の人間とチャットボットのインタラクションから抽出されたシードプロンプトを使用する。
シミュレーションされた会話の質を評価し、UniEvalとGTEvalの評価プロトコルを用いて異なるモデルを比較した。
- 参考スコア(独自算出の注目度): 7.038493120049631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting human-chatbot dialogues typically demands substantial manual effort and is time-consuming, which limits and poses challenges for research on conversational AI. In this work, we propose DialogueForge - a framework for generating AI-simulated conversations in human-chatbot style. To initialize each generated conversation, DialogueForge uses seed prompts extracted from real human-chatbot interactions. We test a variety of LLMs to simulate the human chatbot user, ranging from state-of-the-art proprietary models to small-scale open-source LLMs, and generate multi-turn dialogues tailored to specific tasks. In addition, we explore fine-tuning techniques to enhance the ability of smaller models to produce indistinguishable human-like dialogues. We evaluate the quality of the simulated conversations and compare different models using the UniEval and GTEval evaluation protocols. Our experiments show that large proprietary models (e.g., GPT-4o) generally outperform others in generating more realistic dialogues, while smaller open-source models (e.g., Llama, Mistral) offer promising performance with greater customization. We demonstrate that the performance of smaller models can be significantly improved by employing supervised fine-tuning techniques. Nevertheless, maintaining coherent and natural long-form human-like dialogues remains a common challenge across all models.
- Abstract(参考訳): 人間のチャットボットの対話を収集するには、通常、かなりの手作業が必要で、時間を要する。
本研究では,人間のチャットボットスタイルでAIシミュレーション会話を生成するためのフレームワークであるDialogueForgeを提案する。
生成された会話を初期化するために、DialogueForgeは実際の人間とチャットボットのインタラクションから抽出されたシードプロンプトを使用する。
我々は、最先端のプロプライエタリモデルから小規模のオープンソースLCMまで、さまざまなLLMを試行し、特定のタスクに適したマルチターン対話を生成する。
さらに,小型モデルによる識別不能な人間的対話生成能力を高めるための微調整手法についても検討した。
シミュレーションされた会話の質を評価し、UniEvalとGTEvalの評価プロトコルを用いて異なるモデルを比較した。
我々の実験によると、大規模なプロプライエタリモデル(GPT-4o)は一般的に、より現実的な対話を生成する上で他よりも優れており、一方、より小さなオープンソースモデル(Llama、Mistral)は、よりカスタマイズ性の高い有望なパフォーマンスを提供する。
教師付き微調整技術を用いることで,小型モデルの性能を大幅に向上できることを示す。
それでも、コヒーレントで自然なロングフォームな対話を維持することは、すべてのモデルに共通する課題である。
関連論文リスト
- REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すかどうかを調べる。
従来の設定では、各参加者は一度に1つのメッセージに制限される。
本稿では,textitburstダイアログパターンを用いて,元のテストを強化するtextbftextscX-Turingを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - PlatoLM: Teaching LLMs in Multi-Round Dialogue via a User Simulator [39.40718009289621]
本研究では,人間の行動をより良くシミュレートするパラダイムを提案し,マルチターン会話に人間的な質問を組み込むことのメリットを探求する。
具体的には、真の人間と機械の会話から抽出した人間の質問を学習目標とし、ソクラティックと呼ばれる新しいユーザシミュレータを提供する。
MT-Bench における LLaMA ベースの 7B モデル間でのSoTA 性能について検討した。
論文 参考訳(メタデータ) (2023-08-21T06:51:56Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。