論文の概要: BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues
- arxiv url: http://arxiv.org/abs/2310.13650v1
- Date: Fri, 20 Oct 2023 16:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 21:42:19.847466
- Title: BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues
- Title(参考訳): BotChat: LLMのマルチターン対話能力の評価
- Authors: Haodong Duan, Jueqi Wei, Chonghua Wang, Hongwei Liu, Yixiao Fang,
Songyang Zhang, Dahua Lin, Kai Chen
- Abstract要約: 本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
- 参考スコア(独自算出の注目度): 72.65163468440434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interacting with human via high-quality multi-turn dialogues is a key feature
of large language models (LLMs). However, human-based evaluation of such
capability involves intensive manual labor. This report provides a preliminary
evaluation of existing large language models for human-style multi-turn
chatting, through an LLM-based approach. We start from real-world human
dialogues and keep the very first utterances as the ChatSEED. Then we prompt
LLMs to generate a full multi-turn dialogue (tens of utterances) based on the
ChatSEED, utterance by utterance. Finally, we adopt state-of-the-art LLMs
(GPT-4, \etc) as the judge to evaluate the generated dialogues. With different
evaluation protocols, we come to substantially identical conclusions. We find
that GPT-4 can generate human-style multi-turn dialogues with impressive
quality, significantly outperforms its counterparts. It's difficult for a
discriminator to distinguish between GPT-4 generated dialogues and human
dialogues. In contrast, other LLMs struggle to generate multi-turn dialogues of
satisfactory quality due to poor instruction-following capability, tendency to
generate lengthy utterances, or limited general capability. All data and codes
will be provided in https://github.com/open-compass/BotChat/ and we hope they
can serve as a valuable resource for evaluating multi-turn chatting
capabilities of LLMs.
- Abstract(参考訳): 高品質なマルチターン対話による人間との対話は、大言語モデル(llm)の重要な特徴である。
しかし、このような能力の評価には集中的な手作業が伴う。
本報告は、llmに基づくアプローチにより、人間型マルチターンチャットのための既存の大規模言語モデルの予備的評価を提供する。
実際の人間の対話から始まり、ChatSEEDとして最初の発話を維持します。
次に,LLMに対して,ChatSEEDに基づく全マルチターン対話(発話数)を生成するように促す。
最後に,得られた対話を評価するために,現状のLPM (GPT-4, \etc) を審査員として採用する。
評価プロトコルが異なるため,ほぼ同一の結論が得られた。
GPT-4は人型多面体対話を優れた品質で生成でき、その性能は著しく向上する。
GPT-4が生成した対話と人間の対話を区別することは難しい。
対照的に、他のllmは、命令追従能力の低さ、長い発話の傾向、あるいは限られた一般能力のために、満足な品質のマルチターン対話を生成するのに苦労している。
すべてのデータとコードはhttps://github.com/open-compass/BotChat/で提供されます。
関連論文リスト
- Think Before You Speak: Cultivating Communication Skills of Large
Language Models via Inner Monologue [80.50660775996535]
大規模言語モデル(LLM)は、流動的で一貫性があり多様な応答を生成する。
LLMには重要な能力がない。
応答生成プロセスには,トピック移行,積極的に質問,概念指導,共感,頻繁な5つのコミュニケーションスキルを付加する。
完全なプロセスは、迅速なエンジニアリングとコンテキスト内学習によって達成される。
論文 参考訳(メタデータ) (2023-11-13T16:19:42Z) - Exploring the Dialogue Comprehension Ability of Large Language Models [55.528419872243994]
評価は対話要約タスクの助けを借りて行われる。
生成した要約から事実質問を導き、より柔軟な対話理解尺度として利用する。
提案手法はDIAC-FactQAで10.9%の誤差率向上を実現した。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - DialogBench: Evaluating LLMs as Human-like Dialogue Systems [22.534371668254327]
大規模言語モデル(LLM)は、新しい対話機能において画期的なブレークスルーを達成した。
対話システムの目標は、ユーザーとの長期的なつながりを確立するのに十分な人間のようなものである。
現在12ドルの対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。
論文 参考訳(メタデータ) (2023-11-03T02:59:56Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。