Fugu-MT 論文翻訳(概要): Large Language Model as a User Simulator

論文の概要: Large Language Model as a User Simulator

arxiv url: http://arxiv.org/abs/2308.11534v1
Date: Mon, 21 Aug 2023 06:51:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 17:32:00.403119
Title: Large Language Model as a User Simulator
Title（参考訳）: ユーザシミュレータとしての大規模言語モデル
Authors: Chuyi Kong, Yaxin Fan, Xiang Wan, Feng Jiang, Benyou Wang
Abstract要約: ChatGPTは民主化への取り組みを刺激し、実際のユーザとChatGPTの会話を活用することで、注目すべき一歩を踏み出した。 BaizeやUltraChatのような現在の取り組みは、真の人間の学習ではなく、指示に基づく人間の振る舞いをシミュレートするためにChatGPTに依存している。以上の課題に対処するため,本研究では,真の人間機械会話から抽出した人間の質問を学習目標とし,ユーザシミュレータであるUserGPTをトレーニングし,高品質な人間中心の合成会話データセットであるRealChatを作成する。
参考スコア（独自算出の注目度）: 42.27783372568634
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The unparalleled performance of closed-sourced ChatGPT has sparked efforts towards its democratization, with notable strides made by leveraging real user and ChatGPT conversations, as evidenced by Vicuna. However, while current endeavors like Baize and UltraChat aim to auto-generate conversational data due to challenges in gathering human participation, they primarily rely on ChatGPT to simulate human behaviors based on directives rather than genuine human learning. This results in a limited scope, diminished diversity, and an absence of genuine multi-round conversational dynamics. To address the above issues, we innovatively target human questions extracted from genuine human-machine conversations as a learning goal and train a user simulator, UserGPT, to produce a high-quality human-centric synthetic conversation dataset, RealChat. Subsequently, this dataset trains our assistant model, ReaLM. Experimentally, ReaLM outpaces baseline models in both Vicuna-Bench and MT-Bench by pairwise comparison when considering equivalent training set sizes, and manual evaluation also shows that our model is highly competitive. Impressively, when fine-tuned with the latest LLaMA 2 model, ReaLM secured a leading score of 6.33 in the MT-Bench, outshining the contemporary same-scale models, including the LLaMA-2-7B-chat model. Further in-depth analysis demonstrates the scalability and transferability of our approach. A preliminary exploration into the interplay between training set data quality and resultant model performance is also undertaken, laying a robust groundwork for future investigations.
Abstract（参考訳）: クローズドソースのChatGPTのパフォーマンスは、Vicunaが証明したように、実際のユーザとChatGPTの会話を活用することで、その民主化への努力を喚起している。しかし、baizeやultrachatのような現在の取り組みは、人間参加の難しさから会話データを自動生成することを目指しているが、それらは主に、本物の人間学習ではなく、指示に基づいて人間の行動をシミュレートするためにchatgptに依存している。その結果、スコープが限定され、多様性が減少し、真のマルチラウンド会話のダイナミクスが欠如することになる。そこで本研究では,人間と機械の対話から抽出した質問を学習目標とし,ユーザシミュレータであるusergptを訓練し,高品質な合成会話データセットであるrealchatを作成する。このデータセットは、私たちのアシスタントモデルであるReaLMをトレーニングします。実験的に、realmは等価なトレーニングセットサイズを考えると、vicuna-benchとmt-benchの両方のベースラインモデルよりも2対比較で上回っており、手作業による評価も高い競合性を示している。印象的なことに、最新のLLaMA 2モデルで微調整された場合、ReaLMはMT-Benchで6.33のスコアを獲得し、LLaMA-2-7B-Chatモデルを含む同規模のモデルを上回った。さらに詳細な分析により,我々のアプローチのスケーラビリティと伝達性を示す。トレーニングセットデータ品質と結果モデルパフォーマンスとの相互作用に関する予備的な調査も行われ、将来の調査のための堅牢な基礎となる。

関連論文リスト

DialogueForge: LLM Simulation of Human-Chatbot Dialogue [7.038493120049631]
人間のチャットボットスタイルでAIシミュレーション会話を生成するためのフレームワークとして,ダイアログForgeを提案する。生成された会話毎に、DialogueForgeは実際の人間とチャットボットのインタラクションから抽出されたシードプロンプトを使用する。シミュレーションされた会話の質を評価し、UniEvalとGTEvalの評価プロトコルを用いて異なるモデルを比較した。
論文参考訳（メタデータ） (2025-07-21T16:08:19Z)
Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions [13.341099059080936]
本研究の目的は、人間とのより没入的な相互作用が可能な「目と耳」をチャットボットに装備することである。本稿では,マルチモーダルな会話データセットであるマルチモーダルなマルチセッション・マルチパーティ・会話について紹介する。我々のモデルはM3C$で訓練され、複数の話者との長期会話をシームレスに行う能力を示している。
論文参考訳（メタデータ） (2025-05-31T06:50:51Z)
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。 EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T20:29:01Z)
DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity [5.388338680646657]
また, GPT-4o miniは, 複数の言語的特徴にまたがって, 実際の人間と系統的に異なることを示す。本研究では,実際の人的インタラクションから派生した特徴を取り入れたユーザシミュレーションのプロンプトを自動生成する手法を提案する。本手法は,特定の言語的特徴を対象とするように最適化され,大幅な改善が見られた。
論文参考訳（メタデータ） (2024-08-30T21:33:58Z)
Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文参考訳（メタデータ） (2024-07-04T14:49:46Z)
Designing and Evaluating Multi-Chatbot Interface for Human-AI Communication: Preliminary Findings from a Persuasion Task [1.360607903399872]
本研究では, 特定の説得環境におけるマルチチャットボットコミュニケーションの効果について検討した。マルチチャットボット通信が可能なオンライン環境を開発し,パイロット実験を行った。本稿では,マルチチャットボットインタフェースの開発プロセスとパイロット実験による予備的な結果について述べる。
論文参考訳（メタデータ） (2024-06-28T04:33:41Z)
ChatGPT Role-play Dataset: Analysis of User Motives and Model Naturalness [4.564433526993029]
本研究は,ChatGPTの会話における動作を,通常とロールプレイの両方で分析することにより,異なる環境での会話においてどのように振る舞うかを検討する。本研究は,ChatGPTと対話する際のユーザのモチベーションの多様性を強調し,人間とAIの自然な会話の微妙なダイナミクスだけでなく,人間とAIのコミュニケーションの有効性向上のための新たな手段を提供する。
論文参考訳（メタデータ） (2024-03-26T22:01:13Z)
BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文参考訳（メタデータ） (2023-10-20T16:53:51Z)
TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文参考訳（メタデータ） (2023-01-14T10:18:22Z)
Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文参考訳（メタデータ） (2021-03-30T15:24:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。