論文の概要: Exploring the Dialogue Comprehension Ability of Large Language Models
- arxiv url: http://arxiv.org/abs/2311.07194v1
- Date: Mon, 13 Nov 2023 09:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:04:47.824430
- Title: Exploring the Dialogue Comprehension Ability of Large Language Models
- Title(参考訳): 大規模言語モデルの対話理解能力の探索
- Authors: Shuaijie She, Shujian Huang, Xingyun Wang, Yanke Zhou, Jiajun Chen
- Abstract要約: 大規模言語モデル(LLM)の対話要約性能を評価する。
生成した要約から事実質問を導き、より柔軟な対話理解尺度として利用する。
精度はDIAC-FactQAで8.9%向上した。
- 参考スコア(独自算出の注目度): 55.528419872243994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent emergence of large language models (LLMs) have attracted
considerable attention. LLMs may interact with users in the form of dialogue
and generate responses following their instructions, which naturally require
dialogue comprehension abilities. Without correct comprehension of the
dialogue, the model may inevitably generate incorrect responses. However,
dialogue comprehension is a general language ability which is hard to be
evaluated directly. In this work, we propose to perform the evaluation with the
help of the dialogue summarization task. Beside evaluating and analyzing the
dialogue summarization performance (DIAC-Sum), we also derive factual questions
from the generated summaries and use them as a more flexible measurement of
dialogue comprehension (DIAC-FactQA). Our evaluation shows that, on average,
27% of the summaries generated by LLMs contain factual inconsistency. Even
ChatGPT, the strongest evaluated model, has such errors in 16% of its
summaries. For answering the factual questions, which is more challenging, the
average accuracy of all evaluated LLMs is only 62.8%. Both results indicate
serious deficiencies. Detailed analysis shows that the understanding of
subject/object of the conversation is still the most challenging problem for
LLMs. Furthermore, to stimulate and enhance the dialogue comprehension ability
of LLMs, we propose a fine-tuning paradigm with auto-constructed multi-task
data. The experimental results demonstrate that our method achieved an accuracy
improvement of 8.9% on DIAC-FactQA.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の出現は注目されている。
LLMは対話の形式でユーザと対話し、指示に従って応答を生成する。
対話の正しい理解がなければ、モデルは必然的に不正確な応答を生成する。
しかし、対話理解は、直接的に評価することが難しい一般的な言語能力である。
本研究では,対話要約タスクの助けを借りて評価を行うことを提案する。
対話要約性能(DIAC-Sum)の評価と解析に加えて,生成した要約から事実質問を導出し,より柔軟な対話理解尺度(DIAC-FactQA)として用いる。
評価の結果,LLMが生成する要約の27%が事実整合性を含んでいることがわかった。
最も評価の高いモデルであるChatGPTでさえ、その要約の16%にそのようなエラーがある。
より難しい事実に答えるには、評価済みのLLMの平均精度は62.8%に過ぎません。
どちらの結果も深刻な欠陥を示している。
詳細な分析は、会話の主題や対象を理解することが、まだLLMにとって最も難しい問題であることを示している。
さらに,LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
実験の結果,diac-factqaでは8.9%の精度向上が得られた。
関連論文リスト
- Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation [17.38671584773247]
本研究では,大規模言語モデル(LLM)を用いた対話評価における即時設計の効果について検討する。
理由と得点の順序はLLMのスコアに大きく影響し,「理性優先」アプローチによりより包括的評価が得られた。
論文 参考訳(メタデータ) (2024-06-05T02:25:10Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。