論文の概要: DialogBench: Evaluating LLMs as Human-like Dialogue Systems
- arxiv url: http://arxiv.org/abs/2311.01677v1
- Date: Fri, 3 Nov 2023 02:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:23:09.216028
- Title: DialogBench: Evaluating LLMs as Human-like Dialogue Systems
- Title(参考訳): DialogBench: LLMを人間に似た対話システムとして評価する
- Authors: Jiao Ou, Junda Lu, Che Liu, Yihong Tang, Fuzheng Zhang, Di Zhang,
Zhongyuan Wang, Kun Gai
- Abstract要約: 大規模言語モデル(LLM)は、新しい対話機能において画期的なブレークスルーを達成した。
対話システムの目標は、ユーザーとの長期的なつながりを確立するのに十分な人間のようなものである。
現在12ドルの対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。
- 参考スコア(独自算出の注目度): 22.534371668254327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable breakthroughs in new
dialogue capabilities, refreshing human's impressions on dialogue systems. The
long-standing goal of dialogue systems is to be human-like enough to establish
long-term connections with users by satisfying the need for communication,
affection and social belonging. Therefore, there has been an urgent need to
evaluate LLMs as human-like dialogue systems. In this paper, we propose
DialogBench, a dialogue evaluation benchmark that currently contains $12$
dialogue tasks to assess the capabilities of LLMs as human-like dialogue
systems should have. Specifically, we prompt GPT-4 to generate evaluation
instances for each task. We first design the basic prompt based on widely-used
design principles and further mitigate the existing biases to generate
higher-quality evaluation instances. Our extensive test over $28$ LLMs
(including pre-trained and supervised instruction-tuning) shows that
instruction fine-tuning benefits improve the human likeness of LLMs to a
certain extent, but there is still much room to improve those capabilities for
most LLMs as human-like dialogue systems. In addition, experimental results
also indicate that LLMs perform differently in various abilities that
human-like dialogue systems should have. We will publicly release DialogBench,
along with the associated evaluation code for the broader research community.
- Abstract(参考訳): 大規模言語モデル(llm)は新しい対話能力において驚くべきブレークスルーを達成し、対話システムに対する人間の印象をリフレッシュした。
対話システムの長年の目標は、コミュニケーション、愛情、社会的帰属の必要性を満たすことで、ユーザーとの長期的なつながりを確立するのに十分な人間的なものである。
そのため,LLMを人間的な対話システムとして評価する必要がある。
本稿では,人間的な対話システムとしてllmの機能を評価するために,現在12ドルの対話タスクを含む対話評価ベンチマークであるdialogbenchを提案する。
具体的には,各タスクに対する評価インスタンスを生成することをGPT-4に促す。
まず,広く使用されている設計原則に基づいた基本プロンプトの設計を行い,既存のバイアスを緩和し,高品質な評価インスタンスを生成する。
80ドル以上のLLM(事前訓練と教師付き指導調整を含む)の広範なテストでは、命令の微調整の利点はLLMの人間的類似性をある程度改善するが、人間のような対話システムとしてのほとんどのLLMの能力を改善する余地はまだまだある。
また,実験結果から,llmは人間の対話システムと異なる能力で異なる性能を示すことが示された。
より広範な研究コミュニティのための評価コードとともに、DialogBenchを公開します。
関連論文リスト
- Exploring Knowledge Tracing in Tutor-Student Dialogues [53.52699766206808]
本稿では,教師と学生の対話における知識追跡(KT)の最初の試みについて述べる。
そこで本研究では,対話の各ターンに係わる知識コンポーネントやスキルを同定する手法を提案する。
次に,得られたラベル付きデータに様々なKT手法を適用し,対話全体を通して学生の知識レベルを追跡する。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。