論文の概要: Exploring the Dialogue Comprehension Ability of Large Language Models
- arxiv url: http://arxiv.org/abs/2311.07194v2
- Date: Thu, 16 Nov 2023 11:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 11:31:47.735695
- Title: Exploring the Dialogue Comprehension Ability of Large Language Models
- Title(参考訳): 大規模言語モデルの対話理解能力の探索
- Authors: Shuaijie She, Shujian Huang, Xingyun Wang, Yanke Zhou, Jiajun Chen
- Abstract要約: 評価は対話要約タスクの助けを借りて行われる。
生成した要約から事実質問を導き、より柔軟な対話理解尺度として利用する。
提案手法はDIAC-FactQAで10.9%の誤差率向上を実現した。
- 参考スコア(独自算出の注目度): 55.528419872243994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs may interact with users in the form of dialogue and generate responses
following their instructions, which naturally require dialogue comprehension
abilities. However, dialogue comprehension is a general language ability which
is hard to be evaluated directly. In this work, we propose to perform the
evaluation with the help of the dialogue summarization task. Beside evaluating
and analyzing the dialogue summarization performance (DIAC-Sum) of different
LLMs, we also derive factual questions from the generated summaries and use
them as a more flexible measurement of dialogue comprehension (DIAC-FactQA).
Our evaluation shows that, on average, 27% of the summaries generated by LLMs
contain factual inconsistency. Even ChatGPT, the strongest model evaluated, has
such errors in 16% of its summaries. For answering the factual questions, which
is more challenging, the average error rate of all evaluated LLMs is 37.2%.
Both results indicate serious deficiencies. Detailed analysis shows that the
understanding of subject/object of the conversation is still the most
challenging problem for LLMs. Furthermore, to stimulate and enhance the
dialogue comprehension ability of LLMs, we propose a fine-tuning paradigm with
auto-constructed multi-task data. The experimental results demonstrate that our
method achieved an error rate improvement of 10.9% on DIAC-FactQA.
- Abstract(参考訳): LLMは対話の形式でユーザと対話し、指示に従って応答を生成する。
しかし、対話理解は、直接的に評価することが難しい一般的な言語能力である。
本研究では,対話要約タスクの助けを借りて評価を行うことを提案する。
異なるLLMの対話要約性能(DIAC-Sum)の評価と解析に加えて、生成された要約から事実質問を導き出し、より柔軟な対話理解尺度(DIAC-FactQA)として利用する。
評価の結果,LLMが生成する要約の27%が事実整合性を含んでいることがわかった。
最強の評価モデルであるChatGPTでさえ、その要約の16%にそのようなエラーがある。
より難しい事実的疑問に答えるには、評価された全てのllmの平均エラー率は37.2%である。
どちらの結果も深刻な欠陥を示している。
詳細な分析は、会話の主題や対象を理解することが、まだLLMにとって最も難しい問題であることを示している。
さらに,LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
実験の結果,DIAC-FactQAでは10.9%の誤差率向上が得られた。
関連論文リスト
- Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation [17.38671584773247]
本研究では,大規模言語モデル(LLM)を用いた対話評価における即時設計の効果について検討する。
理由と得点の順序はLLMのスコアに大きく影響し,「理性優先」アプローチによりより包括的評価が得られた。
論文 参考訳(メタデータ) (2024-06-05T02:25:10Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。