論文の概要: DialogBench: Evaluating LLMs as Human-like Dialogue Systems
- arxiv url: http://arxiv.org/abs/2311.01677v1
- Date: Fri, 3 Nov 2023 02:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:23:09.216028
- Title: DialogBench: Evaluating LLMs as Human-like Dialogue Systems
- Title(参考訳): DialogBench: LLMを人間に似た対話システムとして評価する
- Authors: Jiao Ou, Junda Lu, Che Liu, Yihong Tang, Fuzheng Zhang, Di Zhang,
Zhongyuan Wang, Kun Gai
- Abstract要約: 大規模言語モデル(LLM)は、新しい対話機能において画期的なブレークスルーを達成した。
対話システムの目標は、ユーザーとの長期的なつながりを確立するのに十分な人間のようなものである。
現在12ドルの対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。
- 参考スコア(独自算出の注目度): 22.534371668254327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable breakthroughs in new
dialogue capabilities, refreshing human's impressions on dialogue systems. The
long-standing goal of dialogue systems is to be human-like enough to establish
long-term connections with users by satisfying the need for communication,
affection and social belonging. Therefore, there has been an urgent need to
evaluate LLMs as human-like dialogue systems. In this paper, we propose
DialogBench, a dialogue evaluation benchmark that currently contains $12$
dialogue tasks to assess the capabilities of LLMs as human-like dialogue
systems should have. Specifically, we prompt GPT-4 to generate evaluation
instances for each task. We first design the basic prompt based on widely-used
design principles and further mitigate the existing biases to generate
higher-quality evaluation instances. Our extensive test over $28$ LLMs
(including pre-trained and supervised instruction-tuning) shows that
instruction fine-tuning benefits improve the human likeness of LLMs to a
certain extent, but there is still much room to improve those capabilities for
most LLMs as human-like dialogue systems. In addition, experimental results
also indicate that LLMs perform differently in various abilities that
human-like dialogue systems should have. We will publicly release DialogBench,
along with the associated evaluation code for the broader research community.
- Abstract(参考訳): 大規模言語モデル(llm)は新しい対話能力において驚くべきブレークスルーを達成し、対話システムに対する人間の印象をリフレッシュした。
対話システムの長年の目標は、コミュニケーション、愛情、社会的帰属の必要性を満たすことで、ユーザーとの長期的なつながりを確立するのに十分な人間的なものである。
そのため,LLMを人間的な対話システムとして評価する必要がある。
本稿では,人間的な対話システムとしてllmの機能を評価するために,現在12ドルの対話タスクを含む対話評価ベンチマークであるdialogbenchを提案する。
具体的には,各タスクに対する評価インスタンスを生成することをGPT-4に促す。
まず,広く使用されている設計原則に基づいた基本プロンプトの設計を行い,既存のバイアスを緩和し,高品質な評価インスタンスを生成する。
80ドル以上のLLM(事前訓練と教師付き指導調整を含む)の広範なテストでは、命令の微調整の利点はLLMの人間的類似性をある程度改善するが、人間のような対話システムとしてのほとんどのLLMの能力を改善する余地はまだまだある。
また,実験結果から,llmは人間の対話システムと異なる能力で異なる性能を示すことが示された。
より広範な研究コミュニティのための評価コードとともに、DialogBenchを公開します。
関連論文リスト
- MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language
Models in Multi-Turn Dialogues [60.06687731373886]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - DialogueLLM: Context and Emotion Knowledge-Tuned Large Language Models
for Emotion Recognition in Conversations [28.15933355881604]
大規模言語モデル(LLM)は、多くの下流自然言語処理(NLP)タスクに対して異常な有効性を示している。
LLaMAモデルの微調整により得られた文脈と感情の知識をチューニングしたLLMであるダイアログLLMを提案する。
会話データセットにおける3つの感情認識のベンチマークについて,提案手法の総合評価を行った。
論文 参考訳(メタデータ) (2023-10-17T16:15:34Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。