論文の概要: Evaluating Large Language Models for Document-grounded Response
Generation in Information-Seeking Dialogues
- arxiv url: http://arxiv.org/abs/2309.11838v1
- Date: Thu, 21 Sep 2023 07:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 16:30:37.510831
- Title: Evaluating Large Language Models for Document-grounded Response
Generation in Information-Seeking Dialogues
- Title(参考訳): 情報探索対話における文書接地応答生成のための大規模言語モデルの評価
- Authors: Norbert Braunschweiler and Rama Doddipatla and Simon Keizer and
Svetlana Stoyanchev
- Abstract要約: 情報検索対話の文脈において,ChatGPTのような大規模言語モデル(LLM)を用いた文書グラウンド応答生成について検討する。
評価には4つのソーシャルサービスドメインにおけるタスク指向対話のMultiDoc2Dialコーパスを用いる。
両方のChatGPT変異体は、おそらく幻覚の存在を含む関連セグメントに存在しない情報を含んでいる可能性が高いが、それらは共有タスクの勝利システムと人間の反応の両方よりも高い評価を受けている。
- 参考スコア(独自算出の注目度): 17.41334279810008
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we investigate the use of large language models (LLMs) like
ChatGPT for document-grounded response generation in the context of
information-seeking dialogues. For evaluation, we use the MultiDoc2Dial corpus
of task-oriented dialogues in four social service domains previously used in
the DialDoc 2022 Shared Task. Information-seeking dialogue turns are grounded
in multiple documents providing relevant information. We generate dialogue
completion responses by prompting a ChatGPT model, using two methods:
Chat-Completion and LlamaIndex. ChatCompletion uses knowledge from ChatGPT
model pretraining while LlamaIndex also extracts relevant information from
documents. Observing that document-grounded response generation via LLMs cannot
be adequately assessed by automatic evaluation metrics as they are
significantly more verbose, we perform a human evaluation where annotators rate
the output of the shared task winning system, the two Chat-GPT variants
outputs, and human responses. While both ChatGPT variants are more likely to
include information not present in the relevant segments, possibly including a
presence of hallucinations, they are rated higher than both the shared task
winning system and human responses.
- Abstract(参考訳): 本稿では,ChatGPTのような大規模言語モデル(LLM)を用いて,情報検索対話の文脈における文書グラウンド応答生成を行う。
評価には、以前DialDoc 2022 Shared Taskで使用されていた4つのソーシャルサービスドメインにおけるタスク指向対話のMultiDoc2Dialコーパスを使用する。
情報探索対話は、関連情報を提供する複数の文書に接地される。
本稿では,Chat-CompletionとLlamaIndexの2つの手法を用いて,ChatGPTモデルにより対話完了応答を生成する。
ChatCompletionはChatGPTモデルの事前トレーニングの知識を使用し、LlamaIndexは文書から関連情報を抽出する。
llmsによる文書接地応答生成は,有意な冗長性を有する自動評価指標では適切に評価できないことを観察し,共有タスク入賞システムの出力,2つのチャットgpt型出力,ヒューマンレスポンスを注釈者が評価するヒューマン評価を行う。
両方のChatGPT変異体は、おそらく幻覚の存在を含む関連セグメントに存在しない情報を含んでいる可能性が高いが、それらは共有タスクの勝利システムと人間の反応の両方よりも高い評価を受けている。
関連論文リスト
- ProCIS: A Benchmark for Proactive Retrieval in Conversations [21.23826888841565]
本稿では,280万件以上の会話からなるプロアクティブな文書検索のための大規模データセットを提案する。
クラウドソーシング実験を行い、高品質で比較的完全な妥当性判定を行う。
また、各文書に関連する会話部分に関するアノテーションを収集し、前向きな検索システムの評価を可能にする。
論文 参考訳(メタデータ) (2024-05-10T13:11:07Z) - Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries [48.243879779374836]
LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。
従来は検索キーやクエリとして生の対話コンテキストを使用していた。
会話のテキスト要約に基づいて会話検索を行う。
LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。
論文 参考訳(メタデータ) (2024-02-20T14:31:17Z) - Evaluating Large Language Models in Semantic Parsing for Conversational
Question Answering over Knowledge Graphs [6.869834883252353]
本稿では,この課題に対して事前訓練を受けていない大規模言語モデルの性能を評価する。
その結果,大規模言語モデルでは対話からグラフクエリを生成することができることがわかった。
論文 参考訳(メタデータ) (2024-01-03T12:28:33Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - A Compare Aggregate Transformer for Understanding Document-grounded
Dialogue [27.04964963480175]
本稿では,対話コンテキストを協調的に認知し,応答生成のための文書情報を集約する比較集約変換器(CAT)を提案する。
CMUDoGデータセットの実験結果は、提案したCATモデルが最先端のアプローチと強力なベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2020-10-01T03:44:44Z) - Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data
and Methodology [68.8836704199096]
コーパスベースの会話インタフェースは、テンプレートベースのエージェントや検索ベースのエージェントよりも多様な自然なレスポンスを生成することができる。
コーパスベースの会話エージェントの生成能力が増大すると、マレヴォレントな反応を分類し、フィルタリングする必要性が生じる。
不適切な内容の認識と分類に関するこれまでの研究は、主にある種のマレヴォレンスに焦点を絞っている。
論文 参考訳(メタデータ) (2020-08-21T22:43:27Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。