Fugu-MT 論文翻訳(概要): BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues

論文の概要: BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues

arxiv url: http://arxiv.org/abs/2310.13650v1
Date: Fri, 20 Oct 2023 16:53:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 21:42:19.847466
Title: BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues
Title（参考訳）: BotChat: LLMのマルチターン対話能力の評価
Authors: Haodong Duan, Jueqi Wei, Chonghua Wang, Hongwei Liu, Yixiao Fang, Songyang Zhang, Dahua Lin, Kai Chen
Abstract要約: 本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
参考スコア（独自算出の注目度）: 72.65163468440434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interacting with human via high-quality multi-turn dialogues is a key feature of large language models (LLMs). However, human-based evaluation of such capability involves intensive manual labor. This report provides a preliminary evaluation of existing large language models for human-style multi-turn chatting, through an LLM-based approach. We start from real-world human dialogues and keep the very first utterances as the ChatSEED. Then we prompt LLMs to generate a full multi-turn dialogue (tens of utterances) based on the ChatSEED, utterance by utterance. Finally, we adopt state-of-the-art LLMs (GPT-4, \etc) as the judge to evaluate the generated dialogues. With different evaluation protocols, we come to substantially identical conclusions. We find that GPT-4 can generate human-style multi-turn dialogues with impressive quality, significantly outperforms its counterparts. It's difficult for a discriminator to distinguish between GPT-4 generated dialogues and human dialogues. In contrast, other LLMs struggle to generate multi-turn dialogues of satisfactory quality due to poor instruction-following capability, tendency to generate lengthy utterances, or limited general capability. All data and codes will be provided in https://github.com/open-compass/BotChat/ and we hope they can serve as a valuable resource for evaluating multi-turn chatting capabilities of LLMs.
Abstract（参考訳）: 高品質なマルチターン対話による人間との対話は、大言語モデル(llm)の重要な特徴である。しかし、このような能力の評価には集中的な手作業が伴う。本報告は、llmに基づくアプローチにより、人間型マルチターンチャットのための既存の大規模言語モデルの予備的評価を提供する。実際の人間の対話から始まり、ChatSEEDとして最初の発話を維持します。次に,LLMに対して,ChatSEEDに基づく全マルチターン対話(発話数)を生成するように促す。最後に,得られた対話を評価するために,現状のLPM (GPT-4, \etc) を審査員として採用する。評価プロトコルが異なるため,ほぼ同一の結論が得られた。 GPT-4は人型多面体対話を優れた品質で生成でき、その性能は著しく向上する。 GPT-4が生成した対話と人間の対話を区別することは難しい。対照的に、他のllmは、命令追従能力の低さ、長い発話の傾向、あるいは限られた一般能力のために、満足な品質のマルチターン対話を生成するのに苦労している。すべてのデータとコードはhttps://github.com/open-compass/BotChat/で提供されます。

関連論文リスト

DialogueForge: LLM Simulation of Human-Chatbot Dialogue [7.038493120049631]
人間のチャットボットスタイルでAIシミュレーション会話を生成するためのフレームワークとして,ダイアログForgeを提案する。生成された会話毎に、DialogueForgeは実際の人間とチャットボットのインタラクションから抽出されたシードプロンプトを使用する。シミュレーションされた会話の質を評価し、UniEvalとGTEvalの評価プロトコルを用いて異なるモデルを比較した。
論文参考訳（メタデータ） (2025-07-21T16:08:19Z)
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、LALMと人間間の音声言語を直接交換する音声対話機能を持つ。 GPT-4oのような最近の進歩により、LALMは人との前後の音声対話を可能にしている。オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
論文参考訳（メタデータ） (2024-12-06T16:34:15Z)
Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文参考訳（メタデータ） (2024-07-04T14:49:46Z)
Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文参考訳（メタデータ） (2024-06-16T20:41:44Z)
Think Before You Speak: Cultivating Communication Skills of Large Language Models via Inner Monologue [73.69510478736483]
大規模言語モデル(LLM)は、流動的で一貫性があり多様な応答を生成する。しかし、それらは重要な能力、コミュニケーションスキルを欠いている。本稿は,内的モノローグによるLLMのコミュニケーション能力向上を目的としている。実験の結果,提案したCSIM戦略はバックボーンモデルを改善し,ベースラインよりも優れていた。
論文参考訳（メタデータ） (2023-11-13T16:19:42Z)
DialogBench: Evaluating LLMs as Human-like Dialogue Systems [16.997134341787486]
大規模言語モデル(LLM)は、命令チューニングを活用することで、新しい対話機能において画期的なブレークスルーを達成している。本稿では,12の対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。インストラクションチューニングはLLMの人間的類似性をある程度改善するが、ほとんどのLLMは人間的な対話システムとして改善の余地が十分にある。
論文参考訳（メタデータ） (2023-11-03T02:59:56Z)
A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。 i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文参考訳（メタデータ） (2022-05-31T19:00:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。