論文の概要: $Q^{2}$: Evaluating Factual Consistency in Knowledge-Grounded Dialogues
via Question Generation and Question Answering
- arxiv url: http://arxiv.org/abs/2104.08202v1
- Date: Fri, 16 Apr 2021 16:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 16:58:33.954837
- Title: $Q^{2}$: Evaluating Factual Consistency in Knowledge-Grounded Dialogues
via Question Generation and Question Answering
- Title(参考訳): Q^{2}$:質問生成と質問応答による知識付き対話における現実的一貫性の評価
- Authors: Or Honovich, Leshem Choshen, Roee Aharoni, Ella Neeman, Idan Szpektor,
Omri Abend
- Abstract要約: ナレッジベース対話モデルにおける事実整合性のための自動評価指標を提案する。
当社のメトリクスは、共参照解像度と自然言語推論機能を利用しています。
We curate a novel dataset of state-of-the-art dialogue system outputs for the Wizard-of-Wikipedia dataset。
- 参考スコア(独自算出の注目度): 38.951535576102906
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Neural knowledge-grounded generative models for dialogue often produce
content that is factually inconsistent with the source text they rely on. As a
consequence, such models are unreliable, limiting their real-world
applicability. Inspired by recent work on evaluating factual consistency in
abstractive summarization (Durmus et al., 2020; Wang et al., 2020), we propose
an automatic evaluation metric for factual consistency in knowledge-grounded
dialogue models using automatic question generation and question answering.
Unlike previous works which use naive token-based comparison of answer spans,
our metric makes use of co-reference resolution and natural language inference
capabilities which greatly improve its performance. To foster proper
evaluation, we curate a novel dataset of state-of-the-art dialogue system
outputs for the Wizard-of-Wikipedia dataset (Dinan et al., 2019), which we
manually annotate for factual consistency. We perform a thorough
meta-evaluation of our metric against other metrics using the new dataset and
two others, where it greatly outperforms the baselines.
- Abstract(参考訳): 対話のためのニューラル知識に基づく生成モデルはしばしば、頼りにしているソーステキストと事実上矛盾するコンテンツを生成する。
その結果、そのようなモデルは信頼できないため、現実の応用性が制限される。
抽象要約における事実整合性を評価する最近の研究(Durmus et al., 2020; Wang et al., 2020)から着想を得て,自動質問生成と質問応答を用いた知識接地対話モデルにおける事実整合性の自動評価指標を提案する。
有意なトークンベースの回答スパンの比較を用いた従来の研究とは異なり、我々のメトリクスは、その性能を大幅に向上させる共参照解決と自然言語推論機能を利用している。
適切な評価を促進するため,ウィザード・オブ・ウィキペディア・データセット(Dinan et al., 2019)の最先端対話システム出力の新たなデータセットを手作業で作成し,実際の一貫性について注釈を付ける。
新しいデータセットと他の2つのメトリクスを使って、私たちのメトリックを徹底したメタ評価を行い、ベースラインを大きく上回らせます。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - ED-FAITH: Evaluating Dialogue Summarization on Faithfulness [35.73012379398233]
まず,対話要約のための忠実度尺度の体系的研究を行った。
我々は,ほとんどの指標が,ニュースデータセットでよく機能しているにもかかわらず,人間の判断と相関が低いことを観察した。
忠実度評価のための新しい尺度T0-Scoreを提案する。
論文 参考訳(メタデータ) (2022-11-15T19:33:50Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。