Fugu-MT 論文翻訳(概要): Exploring the Dialogue Comprehension Ability of Large Language Models

論文の概要: Exploring the Dialogue Comprehension Ability of Large Language Models

arxiv url: http://arxiv.org/abs/2311.07194v1
Date: Mon, 13 Nov 2023 09:32:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 15:04:47.824430
Title: Exploring the Dialogue Comprehension Ability of Large Language Models
Title（参考訳）: 大規模言語モデルの対話理解能力の探索
Authors: Shuaijie She, Shujian Huang, Xingyun Wang, Yanke Zhou, Jiajun Chen
Abstract要約: 大規模言語モデル(LLM)の対話要約性能を評価する。生成した要約から事実質問を導き、より柔軟な対話理解尺度として利用する。精度はDIAC-FactQAで8.9%向上した。
参考スコア（独自算出の注目度）: 55.528419872243994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent emergence of large language models (LLMs) have attracted considerable attention. LLMs may interact with users in the form of dialogue and generate responses following their instructions, which naturally require dialogue comprehension abilities. Without correct comprehension of the dialogue, the model may inevitably generate incorrect responses. However, dialogue comprehension is a general language ability which is hard to be evaluated directly. In this work, we propose to perform the evaluation with the help of the dialogue summarization task. Beside evaluating and analyzing the dialogue summarization performance (DIAC-Sum), we also derive factual questions from the generated summaries and use them as a more flexible measurement of dialogue comprehension (DIAC-FactQA). Our evaluation shows that, on average, 27% of the summaries generated by LLMs contain factual inconsistency. Even ChatGPT, the strongest evaluated model, has such errors in 16% of its summaries. For answering the factual questions, which is more challenging, the average accuracy of all evaluated LLMs is only 62.8%. Both results indicate serious deficiencies. Detailed analysis shows that the understanding of subject/object of the conversation is still the most challenging problem for LLMs. Furthermore, to stimulate and enhance the dialogue comprehension ability of LLMs, we propose a fine-tuning paradigm with auto-constructed multi-task data. The experimental results demonstrate that our method achieved an accuracy improvement of 8.9% on DIAC-FactQA.
Abstract（参考訳）: 近年の大規模言語モデル(LLM)の出現は注目されている。 LLMは対話の形式でユーザと対話し、指示に従って応答を生成する。対話の正しい理解がなければ、モデルは必然的に不正確な応答を生成する。しかし、対話理解は、直接的に評価することが難しい一般的な言語能力である。本研究では,対話要約タスクの助けを借りて評価を行うことを提案する。対話要約性能(DIAC-Sum)の評価と解析に加えて,生成した要約から事実質問を導出し,より柔軟な対話理解尺度(DIAC-FactQA)として用いる。評価の結果,LLMが生成する要約の27%が事実整合性を含んでいることがわかった。最も評価の高いモデルであるChatGPTでさえ、その要約の16%にそのようなエラーがある。より難しい事実に答えるには、評価済みのLLMの平均精度は62.8%に過ぎません。どちらの結果も深刻な欠陥を示している。詳細な分析は、会話の主題や対象を理解することが、まだLLMにとって最も難しい問題であることを示している。さらに,LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。実験の結果,diac-factqaでは8.9%の精度向上が得られた。

関連論文リスト

Reasoning or Not? A Comprehensive Evaluation of Reasoning LLMs for Dialogue Summarization [9.994839971567542]
本報告では, 最先端の推論LDMと非推論LDMの総合的, 体系的評価について述べる。他の推論集約的なタスクの傾向とは対照的に、明示的な段階的推論は対話の要約品質を常に改善しない。
論文参考訳（メタデータ） (2025-07-02T21:02:41Z)
Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文参考訳（メタデータ） (2024-06-16T20:41:44Z)
LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation [17.38671584773247]
本研究では,大規模言語モデル(LLM)を用いた対話評価における即時設計の効果について検討する。理由と得点の順序はLLMのスコアに大きく影響し,「理性優先」アプローチによりより包括的評価が得られた。
論文参考訳（メタデータ） (2024-06-05T02:25:10Z)
Reasoning in Conversation: Solving Subjective Tasks through Dialogue Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。 RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。 GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文参考訳（メタデータ） (2024-02-27T05:37:10Z)
MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。 1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文参考訳（メタデータ） (2024-02-22T18:21:59Z)
BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文参考訳（メタデータ） (2023-10-20T16:53:51Z)
Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。 6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文参考訳（メタデータ） (2023-09-22T15:41:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。