論文の概要: The Lab vs The Crowd: An Investigation into Data Quality for Neural
Dialogue Models
- arxiv url: http://arxiv.org/abs/2012.03855v1
- Date: Mon, 7 Dec 2020 17:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:30:16.608276
- Title: The Lab vs The Crowd: An Investigation into Data Quality for Neural
Dialogue Models
- Title(参考訳): the lab vs the crowd: a investigation on data quality for neural dialogue models (英語)
- Authors: Jos\'e Lopes, Francisco J. Chiyah Garcia and Helen Hastie
- Abstract要約: 同じインタラクションタスクにおける対話モデルの性能を比較するが、実験室とクラウドソースの2つの設定で収集する。
同様の精度に達するためにラボの対話は少なく、クラウドソースデータとしてのラボデータの半分以下であることが分かりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Challenges around collecting and processing quality data have hampered
progress in data-driven dialogue models. Previous approaches are moving away
from costly, resource-intensive lab settings, where collection is slow but
where the data is deemed of high quality. The advent of crowd-sourcing
platforms, such as Amazon Mechanical Turk, has provided researchers with an
alternative cost-effective and rapid way to collect data. However, the
collection of fluid, natural spoken or textual interaction can be challenging,
particularly between two crowd-sourced workers. In this study, we compare the
performance of dialogue models for the same interaction task but collected in
two different settings: in the lab vs. crowd-sourced. We find that fewer lab
dialogues are needed to reach similar accuracy, less than half the amount of
lab data as crowd-sourced data. We discuss the advantages and disadvantages of
each data collection method.
- Abstract(参考訳): 品質データの収集と処理に関する課題は、データ駆動対話モデルの進歩を妨げている。
これまでのアプローチは、収集が遅いがデータが高品質と見なされるような、リソース集約的なラボの設定から遠ざかっている。
Amazon Mechanical Turkのようなクラウドソーシングプラットフォームの出現は、研究者にデータ収集のコスト効率と迅速な方法を提供してきた。
しかし、流体、自然言語、テキストによる対話の収集は、特に2人のクラウドソースの労働者の間で難しい場合があります。
本研究では,同じインタラクションタスクにおける対話モデルの性能を比較するが,実験室とクラウドソースの2つの異なる設定で収集する。
実験室での対話は、クラウドソースデータの半分未満の精度で行う必要があることがわかりました。
各データ収集手法の利点と欠点について論じる。
関連論文リスト
- Deep Active Learning for Data Mining from Conflict Text Corpora [0.0]
本稿では,能動的学習を活用して,安価で高性能な手法を提案する。
このアプローチは、人間の(ゴールドスタンダードの)コーディングに類似したパフォーマンスを示しながら、必要な人間のアノテーションの量を最大99%削減する。
論文 参考訳(メタデータ) (2024-02-02T17:16:23Z) - AutoConv: Automatically Generating Information-seeking Conversations
with Large Language Models [74.10293412011455]
合成会話生成のためのAutoConvを提案する。
具体的には,会話生成問題を言語モデリングタスクとして定式化する。
我々は、情報探索プロセスの特徴を捉えるために、人間同士の会話でLLMを微調整する。
論文 参考訳(メタデータ) (2023-08-12T08:52:40Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - Human-in-the-Loop for Data Collection: a Multi-Target Counter Narrative
Dataset to Fight Online Hate Speech [10.323063834827416]
カウンター・ナラティブと呼ばれる、情報や非攻撃的な反応によるヘイトフルコンテンツの影響を損なうことは、より健康的なオンラインコミュニティを実現するための解決策として浮上している。
本稿では、生成言語モデルを反復的に洗練する新しいヒューマン・イン・ザ・ループデータ収集手法を提案する。
その結果、この方法論はスケーラブルであり、多種多様で斬新で費用対効果の高いデータ収集を促進することが示されている。
論文 参考訳(メタデータ) (2021-07-19T09:45:54Z) - What Ingredients Make for an Effective Crowdsourcing Protocol for
Difficult NLU Data Collection Tasks? [31.39009622826369]
我々は、データ品質を改善する方法として、先行研究で提案された介入の有効性を比較した。
我々は,NLU例の難易度を高めるための非効率なスタンドアロン戦略として,実例の説明書を書くよう労働者に求めていることを見出した。
専門家評価を伴う反復的プロトコルからのデータは、いくつかの尺度によりより困難であることが観察された。
論文 参考訳(メタデータ) (2021-06-01T21:05:52Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data [61.71319905364992]
未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
データレベルの蒸留プロセスが最初に提案され、未確認データからポストとレスポンスの両方を検索する拡張ダイアログを構築する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
モデルレベルの蒸留プロセスを用いて、高品質なペアデータに基づいて訓練された教師モデルを、強化された対話ペアに蒸留する。
論文 参考訳(メタデータ) (2020-09-20T13:06:38Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。