論文の概要: Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems
- arxiv url: http://arxiv.org/abs/2404.09980v1
- Date: Mon, 15 Apr 2024 17:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:18:06.012236
- Title: Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems
- Title(参考訳): コンテキストが重要である:タスク指向対話システムにおけるクラウドソーシング評価ラベルの意味
- Authors: Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke,
- Abstract要約: クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
- 参考スコア(独自算出の注目度): 57.16442740983528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowdsourced labels play a crucial role in evaluating task-oriented dialogue systems (TDSs). Obtaining high-quality and consistent ground-truth labels from annotators presents challenges. When evaluating a TDS, annotators must fully comprehend the dialogue before providing judgments. Previous studies suggest using only a portion of the dialogue context in the annotation process. However, the impact of this limitation on label quality remains unexplored. This study investigates the influence of dialogue context on annotation quality, considering the truncated context for relevance and usefulness labeling. We further propose to use large language models (LLMs) to summarize the dialogue context to provide a rich and short description of the dialogue context and study the impact of doing so on the annotator's performance. Reducing context leads to more positive ratings. Conversely, providing the entire dialogue context yields higher-quality relevance ratings but introduces ambiguity in usefulness ratings. Using the first user utterance as context leads to consistent ratings, akin to those obtained using the entire dialogue, with significantly reduced annotation effort. Our findings show how task design, particularly the availability of dialogue context, affects the quality and consistency of crowdsourced evaluation labels.
- Abstract(参考訳): クラウドソースラベルはタスク指向対話システム(TDS)の評価において重要な役割を果たす。
アノテータから高品質で一貫性のある基盤構造ラベルを取得することは、課題を提示します。
TDSを評価する際には、アノテータは判断を下す前に対話を完全に理解しなければならない。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
しかし、この制限がラベルの品質に与える影響は未解明のままである。
本研究では,対話コンテキストがアノテーション品質に及ぼす影響について検討し,関連性や有用性について検討した。
さらに,対話コンテキストを要約した大言語モデル (LLM) を用いて,対話コンテキストのリッチで簡潔な記述を提供し,その処理がアノテータのパフォーマンスに与える影響について検討する。
コンテキストの削減は、より肯定的な評価につながる。
逆に、対話のコンテキスト全体を提供すると、より高品質な関連性評価が得られるが、有用性評価の曖昧さがもたらされる。
最初のユーザ発話をコンテキストとして使用すると、対話全体を使って得られるものと同様、一貫した評価が得られ、アノテーションの労力は大幅に削減される。
本研究は,タスクデザイン,特に対話コンテキストの可用性が,クラウドソース評価ラベルの品質と一貫性にどのように影響するかを示す。
関連論文リスト
- Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Toward More Accurate and Generalizable Evaluation Metrics for
Task-Oriented Dialogs [19.43845920149182]
ダイアログ品質と呼ばれる新しいダイアログレベルのアノテーションワークフローを導入する。
DQAの専門家アノテータは、ダイアログ全体の品質を評価し、ゴール完了やユーザ感情などの属性に対するラベルダイアログも評価する。
我々は,大規模音声アシスタントプラットフォームにおける対話品質を評価する上で,高品質なヒューマンアノテートデータを持つことが重要であると論じている。
論文 参考訳(メタデータ) (2023-06-06T19:43:29Z) - SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings [33.89889949577356]
本稿では,対話型コントラスト学習手法であるDialogueCSEを提案する。
我々は,Microsoft Dialogue Corpus,Jing Dong Dialogue Corpus,E-Commerce Dialogue Corpusの3つの多ターン対話データセットについて評価を行った。
論文 参考訳(メタデータ) (2021-09-26T13:25:41Z) - What Helps Transformers Recognize Conversational Structure? Importance
of Context, Punctuation, and Labels in Dialog Act Recognition [41.1669799542627]
2つの事前訓練されたトランスフォーマーモデルを適用し、対話行動のシーケンスとして会話文を構造化する。
より広範な会話コンテキストが組み込まれていることは、多くの対話行動クラスを曖昧にするのに役立ちます。
詳細な分析により、その欠如で観察された特定のセグメンテーションパターンが明らかになる。
論文 参考訳(メタデータ) (2021-07-05T21:56:00Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating
Open-Domain Dialogue Systems [133.13117064357425]
自動対話評価のためのグラフ強調表現のための新しい評価指標GRADEを提案する。
具体的には、対話コヒーレンスを評価するために、粗粒度発話レベルの文脈化表現と細粒度トピックレベルのグラフ表現の両方を組み込んでいる。
実験の結果,GRADEは多様な対話モデルの測定において,他の最先端の指標よりも優れていた。
論文 参考訳(メタデータ) (2020-10-08T14:07:32Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。