Fugu-MT 論文翻訳(概要): DialogBench: Evaluating LLMs as Human-like Dialogue Systems

論文の概要: DialogBench: Evaluating LLMs as Human-like Dialogue Systems

arxiv url: http://arxiv.org/abs/2311.01677v2
Date: Fri, 29 Mar 2024 11:35:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 20:26:59.924359
Title: DialogBench: Evaluating LLMs as Human-like Dialogue Systems
Title（参考訳）: DialogBench: LLMを人間に似た対話システムとして評価する
Authors: Jiao Ou, Junda Lu, Che Liu, Yihong Tang, Fuzheng Zhang, Di Zhang, Kun Gai,
Abstract要約: 大規模言語モデル(LLM)は、命令チューニングを活用することで、新しい対話機能において画期的なブレークスルーを達成している。本稿では,12の対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。インストラクションチューニングはLLMの人間的類似性をある程度改善するが、ほとんどのLLMは人間的な対話システムとして改善の余地が十分にある。
参考スコア（独自算出の注目度）: 16.997134341787486
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved remarkable breakthroughs in new dialogue capabilities by leveraging instruction tuning, which refreshes human impressions of dialogue systems. The long-standing goal of dialogue systems is to be human-like enough to establish long-term connections with users. Therefore, there has been an urgent need to evaluate LLMs as human-like dialogue systems. In this paper, we propose DialogBench, a dialogue evaluation benchmark that contains 12 dialogue tasks to probe the capabilities of LLMs as human-like dialogue systems should have. Specifically, we prompt GPT-4 to generate evaluation instances for each task. We first design the basic prompt based on widely used design principles and further mitigate the existing biases to generate higher-quality evaluation instances. Our extensive tests on English and Chinese DialogBench of 26 LLMs show that instruction tuning improves the human likeness of LLMs to a certain extent, but most LLMs still have much room for improvement as human-like dialogue systems. Interestingly, results also show that the positioning of assistant AI can make instruction tuning weaken the human emotional perception of LLMs and their mastery of information about human daily life.
Abstract（参考訳）: 大規模言語モデル(LLM)は,対話システムの人間の印象をリフレッシュする命令チューニングを活用することで,新たな対話機能において画期的なブレークスルーを実現している。対話システムの長年の目標は、ユーザーとの長期的なつながりを確立するのに十分な人間のようなものである。そのため,LLMを人間的な対話システムとして評価する必要性が高まっている。本稿では,12の対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。具体的には,各タスクに対する評価インスタンスを生成することをGPT-4に促す。まず、広く使われている設計原則に基づいて基本的なプロンプトを設計し、既存のバイアスを緩和し、高品質な評価インスタンスを生成する。 26のLLMの英語と中国語のダイアログベンチに関する広範な試験では、指導指導はLLMの人間的類似性をある程度改善するが、ほとんどのLLMは人間のような対話システムとして改善の余地が残っている。興味深いことに、アシスタントAIの位置付けは、LLMの人間の感情知覚と人間の日常生活に関する情報の習得を弱めることができる。

関連論文リスト

ChatChecker: A Framework for Dialogue System Testing and Evaluation Through Non-cooperative User Simulation [0.0]
ChatCheckerは複雑な対話システムの自動評価とテストのためのフレームワークである。大きな言語モデル(LLM)を使用して、多様なユーザインタラクションをシミュレートし、対話のブレークダウンを特定し、品質を評価する。
論文参考訳（メタデータ） (2025-07-22T17:40:34Z)
Training Dialogue Systems by AI Feedback for Improving Overall Dialogue Impression [9.005722141359675]
本研究は、対話応答を評価するために、対話全体の印象に関連する12の指標に対応する報酬モデルを構築した。システム印象を改善するために,報酬モデル信号を用いて対話モデルを調整した。
論文参考訳（メタデータ） (2025-01-22T08:14:51Z)
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、LALMと人間間の音声言語を直接交換する音声対話機能を持つ。 GPT-4oのような最近の進歩により、LALMは人との前後の音声対話を可能にしている。オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
論文参考訳（メタデータ） (2024-12-06T16:34:15Z)
Exploring Knowledge Tracing in Tutor-Student Dialogues [53.52699766206808]
本稿では,教師と学生の対話における知識追跡(KT)の最初の試みについて述べる。そこで本研究では,対話の各ターンに係わる知識コンポーネントやスキルを同定する手法を提案する。次に,得られたラベル付きデータに様々なKT手法を適用し,対話全体を通して学生の知識レベルを追跡する。
論文参考訳（メタデータ） (2024-09-24T22:31:39Z)
LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文参考訳（メタデータ） (2024-07-04T14:49:46Z)
Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文参考訳（メタデータ） (2024-06-16T20:41:44Z)
A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文参考訳（メタデータ） (2023-12-24T04:50:57Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文参考訳（メタデータ） (2023-10-20T16:53:51Z)
Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。 6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文参考訳（メタデータ） (2023-09-22T15:41:34Z)
A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。 i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文参考訳（メタデータ） (2022-05-31T19:00:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。