論文の概要: Meta-evaluation of Conversational Search Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2104.13453v1
- Date: Tue, 27 Apr 2021 20:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:56:29.464848
- Title: Meta-evaluation of Conversational Search Evaluation Metrics
- Title(参考訳): 対話型検索評価尺度のメタ評価
- Authors: Zeyang Liu, Ke Zhou and Max L. Wilson
- Abstract要約: 我々は様々な会話検索指標を体系的にメタ評価する。
METEORは、すべての3つの視点を考慮して、最も優れた既存のシングルターンメトリックです。
また、適応セッションベースの評価指標を使用して、マルチターン会話検索を測定することも示します。
- 参考スコア(独自算出の注目度): 15.942419892035124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational search systems, such as Google Assistant and Microsoft
Cortana, enable users to interact with search systems in multiple rounds
through natural language dialogues. Evaluating such systems is very challenging
given that any natural language responses could be generated, and users
commonly interact for multiple semantically coherent rounds to accomplish a
search task. Although prior studies proposed many evaluation metrics, the
extent of how those measures effectively capture user preference remains to be
investigated. In this paper, we systematically meta-evaluate a variety of
conversational search metrics. We specifically study three perspectives on
those metrics: (1) reliability: the ability to detect "actual" performance
differences as opposed to those observed by chance; (2) fidelity: the ability
to agree with ultimate user preference; and (3) intuitiveness: the ability to
capture any property deemed important: adequacy, informativeness, and fluency
in the context of conversational search. By conducting experiments on two test
collections, we find that the performance of different metrics varies
significantly across different scenarios whereas consistent with prior studies,
existing metrics only achieve a weak correlation with ultimate user preference
and satisfaction. METEOR is, comparatively speaking, the best existing
single-turn metric considering all three perspectives. We also demonstrate that
adapted session-based evaluation metrics can be used to measure multi-turn
conversational search, achieving moderate concordance with user satisfaction.
To our knowledge, our work establishes the most comprehensive meta-evaluation
for conversational search to date.
- Abstract(参考訳): Google AssistantやMicrosoft Cortanaのような会話型検索システムは、自然言語対話を通じて複数のラウンドで検索システムと対話することができる。
このようなシステムを評価することは、自然言語応答が生成可能であることを考えると非常に困難であり、ユーザーは検索タスクを達成するために複数のセマンティック・コヒーレントなラウンドで対話することが多い。
先行研究では多くの評価指標が提案されていたが, ユーザの嗜好を効果的に捉える方法が検討されている。
本稿では,様々な対話検索指標を体系的にメタ評価する。
本研究は,(1)信頼度: 偶然に観察されたものと対照的に「現実的」な性能差を検出する能力;(2)忠実度: 究極のユーザの嗜好に同意する能力;(3)直感性: 重要とみなされる財産を捕捉する能力: 会話検索の文脈における妥当性, 情報性, フラエンシの3つの視点について検討する。
2つのテストコレクションで実験を行うことで、異なるメトリクスのパフォーマンスが異なるシナリオで大きく異なるのに対して、既存のメトリクスは究極のユーザの好みと満足度との弱い相関しか得られないことがわかった。
METEORは、相対的に、三つの視点をすべて考慮して、最も優れた1ターン計量である。
また,ユーザ満足度と適度に一致し,マルチターン会話検索を計測するために,セッションベース評価指標を活用できることを実証した。
我々の知る限り、我々の研究は会話検索における最も包括的なメタ評価を確立している。
関連論文リスト
- TaskDiff: A Similarity Metric for Task-Oriented Conversations [6.136198298002772]
本稿では,対話的類似度尺度であるTaskDiffを紹介する。
異なる対話コンポーネント(発話、意図、スロット)とそれらの分布を使って類似性を計算する。
論文 参考訳(メタデータ) (2023-10-23T19:03:35Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - POSSCORE: A Simple Yet Effective Evaluation of Conversational Search
with Part of Speech Labelling [25.477834359694473]
Google AssistantやMicrosoft Cortanaのような会話型検索システムは、ユーザーが自然言語対話を通じて検索システムとの通信を許可する新しい検索パラダイムを提供する。
本稿では,会話検索のための簡易かつ効果的な自動評価手法POSSCOREを提案する。
我々の指標は人間の嗜好と相関し、最先端の基準指標よりも大幅に改善できることが示される。
論文 参考訳(メタデータ) (2021-09-07T12:31:29Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Deconstruct to Reconstruct a Configurable Evaluation Metric for
Open-Domain Dialogue Systems [36.73648357051916]
オープンドメイン対話では、全体的な品質は、関連性、特異性、共感など、さまざまな側面から成り立っている。
既存のメトリクスは、そのような柔軟性に対処するように設計されていません。
そこで本研究では,USL-Hと呼ばれる単一メトリクスを得るために,各アスペクトを合成する簡単な手法を提案する。
論文 参考訳(メタデータ) (2020-11-01T11:34:50Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z) - Topic Propagation in Conversational Search [0.0]
会話の文脈では、ユーザは、自然言語質問のシーケンスとして、多面的な情報を必要とすることを表現します。
筆者らは,2019 TREC Conversational Assistant Track (CAsT) フレームワークを用いて, (i) トピック認識発話の書き直し, (ii) 書き直された発話の候補節の検索, (iii) ニューラルネットワークによる候補節の再ランク付けを行う。
論文 参考訳(メタデータ) (2020-04-29T10:06:00Z) - IART: Intent-aware Response Ranking with Transformers in
Information-seeking Conversation Systems [80.0781718687327]
我々は、情報探索会話におけるユーザ意図パターンを分析し、意図認識型ニューラルレスポンスランキングモデル「IART」を提案する。
IARTは、ユーザ意図モデリングと言語表現学習とTransformerアーキテクチャの統合の上に構築されている。
論文 参考訳(メタデータ) (2020-02-03T05:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。