Fugu-MT 論文翻訳(概要): DialogBench: Evaluating LLMs as Human-like Dialogue Systems

論文の概要: DialogBench: Evaluating LLMs as Human-like Dialogue Systems

arxiv url: http://arxiv.org/abs/2311.01677v1
Date: Fri, 3 Nov 2023 02:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 15:23:09.216028
Title: DialogBench: Evaluating LLMs as Human-like Dialogue Systems
Title（参考訳）: DialogBench: LLMを人間に似た対話システムとして評価する
Authors: Jiao Ou, Junda Lu, Che Liu, Yihong Tang, Fuzheng Zhang, Di Zhang, Zhongyuan Wang, Kun Gai
Abstract要約: 大規模言語モデル(LLM)は、新しい対話機能において画期的なブレークスルーを達成した。対話システムの目標は、ユーザーとの長期的なつながりを確立するのに十分な人間のようなものである。現在12ドルの対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。
参考スコア（独自算出の注目度）: 22.534371668254327
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved remarkable breakthroughs in new dialogue capabilities, refreshing human's impressions on dialogue systems. The long-standing goal of dialogue systems is to be human-like enough to establish long-term connections with users by satisfying the need for communication, affection and social belonging. Therefore, there has been an urgent need to evaluate LLMs as human-like dialogue systems. In this paper, we propose DialogBench, a dialogue evaluation benchmark that currently contains $12$ dialogue tasks to assess the capabilities of LLMs as human-like dialogue systems should have. Specifically, we prompt GPT-4 to generate evaluation instances for each task. We first design the basic prompt based on widely-used design principles and further mitigate the existing biases to generate higher-quality evaluation instances. Our extensive test over $28$ LLMs (including pre-trained and supervised instruction-tuning) shows that instruction fine-tuning benefits improve the human likeness of LLMs to a certain extent, but there is still much room to improve those capabilities for most LLMs as human-like dialogue systems. In addition, experimental results also indicate that LLMs perform differently in various abilities that human-like dialogue systems should have. We will publicly release DialogBench, along with the associated evaluation code for the broader research community.
Abstract（参考訳）: 大規模言語モデル(llm)は新しい対話能力において驚くべきブレークスルーを達成し、対話システムに対する人間の印象をリフレッシュした。対話システムの長年の目標は、コミュニケーション、愛情、社会的帰属の必要性を満たすことで、ユーザーとの長期的なつながりを確立するのに十分な人間的なものである。そのため,LLMを人間的な対話システムとして評価する必要がある。本稿では,人間的な対話システムとしてllmの機能を評価するために,現在12ドルの対話タスクを含む対話評価ベンチマークであるdialogbenchを提案する。具体的には,各タスクに対する評価インスタンスを生成することをGPT-4に促す。まず,広く使用されている設計原則に基づいた基本プロンプトの設計を行い,既存のバイアスを緩和し,高品質な評価インスタンスを生成する。 80ドル以上のLLM(事前訓練と教師付き指導調整を含む)の広範なテストでは、命令の微調整の利点はLLMの人間的類似性をある程度改善するが、人間のような対話システムとしてのほとんどのLLMの能力を改善する余地はまだまだある。また,実験結果から,llmは人間の対話システムと異なる能力で異なる性能を示すことが示された。より広範な研究コミュニティのための評価コードとともに、DialogBenchを公開します。

関連論文リスト

ChatChecker: A Framework for Dialogue System Testing and Evaluation Through Non-cooperative User Simulation [0.0]
ChatCheckerは複雑な対話システムの自動評価とテストのためのフレームワークである。大きな言語モデル(LLM)を使用して、多様なユーザインタラクションをシミュレートし、対話のブレークダウンを特定し、品質を評価する。
論文参考訳（メタデータ） (2025-07-22T17:40:34Z)
Training Dialogue Systems by AI Feedback for Improving Overall Dialogue Impression [9.005722141359675]
本研究は、対話応答を評価するために、対話全体の印象に関連する12の指標に対応する報酬モデルを構築した。システム印象を改善するために,報酬モデル信号を用いて対話モデルを調整した。
論文参考訳（メタデータ） (2025-01-22T08:14:51Z)
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、LALMと人間間の音声言語を直接交換する音声対話機能を持つ。 GPT-4oのような最近の進歩により、LALMは人との前後の音声対話を可能にしている。オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
論文参考訳（メタデータ） (2024-12-06T16:34:15Z)
Exploring Knowledge Tracing in Tutor-Student Dialogues [53.52699766206808]
本稿では,教師と学生の対話における知識追跡(KT)の最初の試みについて述べる。そこで本研究では,対話の各ターンに係わる知識コンポーネントやスキルを同定する手法を提案する。次に,得られたラベル付きデータに様々なKT手法を適用し,対話全体を通して学生の知識レベルを追跡する。
論文参考訳（メタデータ） (2024-09-24T22:31:39Z)
LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文参考訳（メタデータ） (2024-07-04T14:49:46Z)
Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文参考訳（メタデータ） (2024-06-16T20:41:44Z)
A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文参考訳（メタデータ） (2023-12-24T04:50:57Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文参考訳（メタデータ） (2023-10-20T16:53:51Z)
Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。 6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文参考訳（メタデータ） (2023-09-22T15:41:34Z)
A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。 i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文参考訳（メタデータ） (2022-05-31T19:00:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。