論文の概要: How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2008.10427v1
- Date: Mon, 24 Aug 2020 13:28:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 09:07:56.015687
- Title: How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics
- Title(参考訳): 対話システムの評価方法: token-level Evaluation Metrics の代替としての Probe Tasks
- Authors: Prasanna Parthasarathi and Joelle Pineau and Sarath Chandar
- Abstract要約: 生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
- 参考スコア(独自算出の注目度): 47.20761880464552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though generative dialogue modeling is widely seen as a language modeling
task, the task demands an agent to have a complex natural language
understanding of its input text to carry a meaningful interaction with an user.
The automatic metrics used evaluate the quality of the generated text as a
proxy to the holistic interaction of the agent. Such metrics were earlier shown
to not correlate with the human judgement. In this work, we observe that human
evaluation of dialogue agents can be inconclusive due to the lack of sufficient
information for appropriate evaluation. The automatic metrics are deterministic
yet shallow and human evaluation can be relevant yet inconclusive. To bridge
this gap in evaluation, we propose designing a set of probing tasks to evaluate
dialogue models. The hand-crafted tasks are aimed at quantitatively evaluating
a generative dialogue model's understanding beyond the token-level evaluation
on the generated text. The probing tasks are deterministic like automatic
metrics and requires human judgement in their designing; benefiting from the
best of both worlds. With experiments on probe tasks we observe that, unlike
RNN based architectures, transformer model may not be learning to comprehend
the input text despite its generated text having higher overlap with the target
text.
- Abstract(参考訳): 生成的対話モデリングは、言語モデリングタスクとして広く見なされているが、そのタスクは、エージェントに対して、ユーザと意味のある対話を行うために、入力テキストの複雑な自然言語理解を要求する。
自動メトリクスは、生成したテキストの品質をエージェントの総合的なインタラクションのプロキシとして評価する。
このような指標は、人間の判断と相関しない。
本研究では,適切な評価のための十分な情報がないため,対話エージェントの人間による評価が不確定であることを示す。
自動メトリクスは決定論的だが浅く、人間による評価は決定的ではない。
この評価のギャップを埋めるため,対話モデルを評価するための探索タスクセットの設計を提案する。
手作りのタスクは、生成したテキストのトークンレベルの評価を超えた生成対話モデルの理解を定量的に評価することを目的としている。
探索タスクは自動メトリクスのように決定論的であり、設計において人間の判断を必要とする。
プローブタスクの実験では、RNNベースのアーキテクチャとは異なり、トランスフォーマーモデルは、ターゲットテキストと高い重なり合いを持つ生成されたテキストにもかかわらず、入力テキストを理解することを学ばない可能性がある。
関連論文リスト
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Synthetic Dialogue Dataset Generation using LLM Agents [7.933485970511388]
我々は,会話エージェントとして機能するエージェントと,ユーザとして機能するエージェントを2つ開発する。
ユーザが利用できるNL4Optからの線形問題に関するテキスト記述のセットを使用して、エージェントとユーザは、元の問題記述からすべてのキー情報を取得するまで会話を行う。
我々は,人間の評価指標を再現するためにGPT-4を用いた評価手法を含む,人的および自動評価を行う。
論文 参考訳(メタデータ) (2024-01-30T21:49:30Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - Do Encoder Representations of Generative Dialogue Models Encode
Sufficient Information about the Task ? [41.36218215755317]
対話モデルの言語理解の健全さを適切に評価するには,人的・自動的な指標によるテキストの評価が不十分であることを示す。
本稿では,対話モデルで一般的に使用される言語エンコーダのエンコーダ表現を評価するための探索タスクを提案する。
論文 参考訳(メタデータ) (2021-06-20T04:52:37Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - Designing Precise and Robust Dialogue Response Evaluators [35.137244385158034]
我々は,参照自由評価器を構築し,半教師付きトレーニングと事前訓練言語モデルのパワーを活用することを提案する。
実験結果から,提案した評価器は人的判断と強い相関(>0.6)を達成できることが示された。
論文 参考訳(メタデータ) (2020-04-10T04:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。