論文の概要: BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues
- arxiv url: http://arxiv.org/abs/2310.13650v1
- Date: Fri, 20 Oct 2023 16:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 21:42:19.847466
- Title: BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues
- Title(参考訳): BotChat: LLMのマルチターン対話能力の評価
- Authors: Haodong Duan, Jueqi Wei, Chonghua Wang, Hongwei Liu, Yixiao Fang,
Songyang Zhang, Dahua Lin, Kai Chen
- Abstract要約: 本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
- 参考スコア(独自算出の注目度): 72.65163468440434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interacting with human via high-quality multi-turn dialogues is a key feature
of large language models (LLMs). However, human-based evaluation of such
capability involves intensive manual labor. This report provides a preliminary
evaluation of existing large language models for human-style multi-turn
chatting, through an LLM-based approach. We start from real-world human
dialogues and keep the very first utterances as the ChatSEED. Then we prompt
LLMs to generate a full multi-turn dialogue (tens of utterances) based on the
ChatSEED, utterance by utterance. Finally, we adopt state-of-the-art LLMs
(GPT-4, \etc) as the judge to evaluate the generated dialogues. With different
evaluation protocols, we come to substantially identical conclusions. We find
that GPT-4 can generate human-style multi-turn dialogues with impressive
quality, significantly outperforms its counterparts. It's difficult for a
discriminator to distinguish between GPT-4 generated dialogues and human
dialogues. In contrast, other LLMs struggle to generate multi-turn dialogues of
satisfactory quality due to poor instruction-following capability, tendency to
generate lengthy utterances, or limited general capability. All data and codes
will be provided in https://github.com/open-compass/BotChat/ and we hope they
can serve as a valuable resource for evaluating multi-turn chatting
capabilities of LLMs.
- Abstract(参考訳): 高品質なマルチターン対話による人間との対話は、大言語モデル(llm)の重要な特徴である。
しかし、このような能力の評価には集中的な手作業が伴う。
本報告は、llmに基づくアプローチにより、人間型マルチターンチャットのための既存の大規模言語モデルの予備的評価を提供する。
実際の人間の対話から始まり、ChatSEEDとして最初の発話を維持します。
次に,LLMに対して,ChatSEEDに基づく全マルチターン対話(発話数)を生成するように促す。
最後に,得られた対話を評価するために,現状のLPM (GPT-4, \etc) を審査員として採用する。
評価プロトコルが異なるため,ほぼ同一の結論が得られた。
GPT-4は人型多面体対話を優れた品質で生成でき、その性能は著しく向上する。
GPT-4が生成した対話と人間の対話を区別することは難しい。
対照的に、他のllmは、命令追従能力の低さ、長い発話の傾向、あるいは限られた一般能力のために、満足な品質のマルチターン対話を生成するのに苦労している。
すべてのデータとコードはhttps://github.com/open-compass/BotChat/で提供されます。
関連論文リスト
- Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Think Before You Speak: Cultivating Communication Skills of Large Language Models via Inner Monologue [73.69510478736483]
大規模言語モデル(LLM)は、流動的で一貫性があり多様な応答を生成する。
しかし、それらは重要な能力、コミュニケーションスキルを欠いている。
本稿は,内的モノローグによるLLMのコミュニケーション能力向上を目的としている。
実験の結果,提案したCSIM戦略はバックボーンモデルを改善し,ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T16:19:42Z) - DialogBench: Evaluating LLMs as Human-like Dialogue Systems [16.997134341787486]
大規模言語モデル(LLM)は、命令チューニングを活用することで、新しい対話機能において画期的なブレークスルーを達成している。
本稿では,12の対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。
インストラクションチューニングはLLMの人間的類似性をある程度改善するが、ほとんどのLLMは人間的な対話システムとして改善の余地が十分にある。
論文 参考訳(メタデータ) (2023-11-03T02:59:56Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。