論文の概要: Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems
- arxiv url: http://arxiv.org/abs/2211.03648v1
- Date: Mon, 7 Nov 2022 15:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:03:12.502067
- Title: Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems
- Title(参考訳): タスク指向対話システムにおける過剰生成応答の優先順位付け
- Authors: Songbo Hu, Ivan Vuli\'c, Fangyu Liu, Anna Korhonen
- Abstract要約: エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
- 参考スコア(独自算出の注目度): 71.33737787564966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) task-oriented dialogue (ToD) systems are prone to fall into
the so-called 'likelihood trap', resulting in generated responses which are
dull, repetitive, and often inconsistent with dialogue history. Comparing
ranked lists of multiple generated responses against the 'gold response' (from
training data) reveals a wide diversity in response quality, with many good
responses placed lower in the ranked list. The main challenge, addressed in
this work, is then how to reach beyond greedily generated system responses,
that is, how to obtain and select such high-quality responses from the list of
overgenerated responses at inference without availability of the gold response.
To this end, we propose a simple yet effective reranking method which aims to
select high-quality items from the lists of responses initially overgenerated
by the system. The idea is to use any sequence-level (similarity) scoring
function to divide the semantic space of responses into high-scoring versus
low-scoring partitions. At training, the high-scoring partition comprises all
generated responses whose similarity to the gold response is higher than the
similarity of the greedy response to the gold response. At inference, the aim
is to estimate the probability that each overgenerated response belongs to the
high-scoring partition, given only previous dialogue history. We validate the
robustness and versatility of our proposed method on the standard MultiWOZ
dataset: our methods improve a state-of-the-art E2E ToD system by 2.4 BLEU, 3.2
ROUGE, and 2.8 METEOR scores, achieving new peak results. Additional
experiments on the BiTOD dataset and human evaluation further ascertain the
generalisability and effectiveness of the proposed framework.
- Abstract(参考訳): エンドツーエンド(e2e)タスク指向対話(tod)システムはいわゆる「いいね!トラップ」に陥りやすいため、退屈で反復的で、対話履歴と矛盾することが多い。
複数生成した応答のランクリストと'ゴールドレスポンス'(トレーニングデータから)を比較すると、応答品質の多様性が明らかになり、ランクリストの下位に良い応答が多数置かれる。
この研究で取り組んだ主な課題は、厳密に生成されたシステム応答を越えて、金の応答が得られない推論で過剰に生成された応答のリストから、そのような高品質な応答をどうやって取得し、選択するかである。
そこで本研究では,システムによって最初に生成された応答のリストから高品質な項目を選択することを目的とした,簡便かつ効果的なリランキング手法を提案する。
その考え方は、シーケンスレベル(類似性)スコアリング関数を使用して、応答の意味空間を高スケーリングと低スケーリングの分割に分割することである。
訓練時には、金反応との類似性が金反応に対するグリード反応の類似性よりも高い全ての生成応答を含む。
推論では、前回の対話履歴のみを考慮し、各過剰生成された応答がハイスケーリングパーティションに属する確率を推定する。
我々は,提案手法のロバスト性および汎用性を標準のMultiWOZデータセット上で検証する:我々の手法は,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8METEORスコアで改善し,新たなピーク値を達成する。
BiTODデータセットと人体評価に関する追加実験により、提案フレームワークの汎用性と有効性をさらに確認した。
関連論文リスト
- Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - Towards Reliable and Factual Response Generation: Detecting Unanswerable
Questions in Information-Seeking Conversations [16.99952884041096]
生成的AIモデルは、そのようなシステムに対するユーザの信頼を損なう可能性のある幻覚の課題に直面します。
本稿では,まずコーパス内の関連するパスを識別し,最後にシステム応答にまとめる2段階のプロセスとして,会話情報探索の問題にアプローチする。
具体的には,文レベル分類器を用いて解答の有無を判定し,これらの予測を文レベルに集約し,最後に最終解答可能性推定値に到達する。
論文 参考訳(メタデータ) (2024-01-21T10:15:36Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue [37.82954848948347]
マルチタスク学習フレームワークを用いた参照支援対話評価(RADE)手法を提案する。
RADEは、参照と候補のレスポンスを明示的に比較して、全体のスコアを予測する。
3つのデータセットと2つの既存のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-09-15T04:47:19Z) - A Systematic Evaluation of Response Selection for Open Domain Dialogue [36.88551817451512]
同じダイアログで生成された複数の応答生成元からの応答を、適切な(正)と不適切な(負)として手動でアノテートするデータセットをキュレートした。
反応選択のための最先端手法の体系的評価を行い、複数の正の候補を用いたり、手動で検証された強陰性候補を用いたりすることで、それぞれRecall@1スコアの3%と13%の増加など、相手のトレーニングデータを用いた場合と比較して、大幅な性能向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-08-08T19:33:30Z) - Generate, Evaluate, and Select: A Dialogue System with a Response
Evaluator for Diversity-Aware Response Generation [9.247397520986999]
現在の対話システムにおける多様性の欠如を克服することを目的としている。
本稿では,応答生成器が生成する複数の応答を評価するジェネレータ・評価器モデルを提案する。
我々は,提案システムとベースラインシステムの出力を比較するために人的評価を行う。
論文 参考訳(メタデータ) (2022-06-10T08:22:22Z) - Double Retrieval and Ranking for Accurate Question Answering [120.69820139008138]
本研究では,トランスフォーマーを用いた解答選択モデルに導入された解答検証ステップが,問合せ解答における解答の精度を大幅に向上させることを示す。
AS2のためのよく知られた3つのデータセットの結果は、最先端の一貫性と大幅な改善を示している。
論文 参考訳(メタデータ) (2022-01-16T06:20:07Z) - Diversifying Task-oriented Dialogue Response Generation with Prototype
Guided Paraphrasing [52.71007876803418]
タスク指向対話システム(TDS)における既存の対話応答生成(DRG)方法は、テンプレートベースとコーパスベースという2つのカテゴリに分類される。
我々はP2-Netと呼ばれるプロトタイプベースのパラフレーズニューラルネットワークを提案し、精度と多様性の両面で応答の質を高めることを目的としている。
論文 参考訳(メタデータ) (2020-08-07T22:25:36Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。