論文の概要: Learning a Cost-Effective Annotation Policy for Question Answering
- arxiv url: http://arxiv.org/abs/2010.03476v2
- Date: Sun, 8 Nov 2020 20:20:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:20:45.330012
- Title: Learning a Cost-Effective Annotation Policy for Question Answering
- Title(参考訳): 質問応答のためのコスト効果アノテーション政策の学習
- Authors: Bernhard Kratzwald, Stefan Feuerriegel, Huan Sun
- Abstract要約: 最先端の質問に対する回答は、ラベル付けに時間がかかり高価である大量のトレーニングデータに依存している。
コスト効率のよいアノテーションポリシーを学習するために必要なQAデータセットに注釈を付けるための新しいフレームワークを提案する。
我々の手法はアノテーションのコストの21.1%まで削減できることがわかった。
- 参考スコア(独自算出の注目度): 45.567289143650484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art question answering (QA) relies upon large amounts of
training data for which labeling is time consuming and thus expensive. For this
reason, customizing QA systems is challenging. As a remedy, we propose a novel
framework for annotating QA datasets that entails learning a cost-effective
annotation policy and a semi-supervised annotation scheme. The latter reduces
the human effort: it leverages the underlying QA system to suggest potential
candidate annotations. Human annotators then simply provide binary feedback on
these candidates. Our system is designed such that past annotations
continuously improve the future performance and thus overall annotation cost.
To the best of our knowledge, this is the first paper to address the problem of
annotating questions with minimal annotation cost. We compare our framework
against traditional manual annotations in an extensive set of experiments. We
find that our approach can reduce up to 21.1% of the annotation cost.
- Abstract(参考訳): 最先端のQA(State-of-the-art question answering)は、ラベル付けに時間がかかり高価である大量のトレーニングデータに依存する。
そのため、QAシステムのカスタマイズは困難である。
本稿では,コスト効率のよいアノテーションポリシーと半教師付きアノテーションスキームを学習するQAデータセットのアノテートのための新しいフレームワークを提案する。
後者は人間の労力を減らし、基礎となるQAシステムを利用して潜在的な候補アノテーションを提案する。
人間のアノテーションは単純にこれらの候補に対するバイナリフィードバックを提供する。
提案方式は,過去のアノテーションが性能を継続的に改善し,アノテーション全体のコストを削減できるように設計されている。
私たちの知る限りでは、この論文は最小限のアノテーションコストで質問をアノテートする問題に対処する最初の論文です。
私たちはこのフレームワークを従来の手動アノテーションと比較し、広範囲な実験を行いました。
我々の手法はアノテーションのコストの21.1%まで削減できることがわかった。
関連論文リスト
- SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - SIGHT: A Large Annotated Dataset on Student Insights Gathered from
Higher Education Transcripts [5.921876072548036]
SIGHTは、マサチューセッツ工科大学 OpenCourseWare (MIT OCW) YouTubeチャンネルから収集された数学講義の大量のデータセットと15,784のコメントである。
本稿では,大規模言語モデル(LLM)を用いたコメントの分類を安価に行うためのベストプラクティスを提案する。
これらのテクニックは、何千ものコメントからの有用な学生のフィードバックを明らかにし、コメント1件あたり0.002ドル程度を支払った。
論文 参考訳(メタデータ) (2023-06-15T17:59:47Z) - Data-efficient Active Learning for Structured Prediction with Partial
Annotation and Self-Training [16.740101757982828]
本稿では,能動的学習を用いた構造化ラベル空間のアノテーションコストを削減できる実用的手法を提案する。
提案手法は部分アノテーションを利用して,アノテーションの最も情報性の高い部分構造のみを選択することで,ラベル付けコストを削減する。
我々はまた、自己学習を利用して、現在のモデルの自動予測を、注釈のないサブ構造のための擬似ラベルとして組み込む。
論文 参考訳(メタデータ) (2023-05-22T01:58:42Z) - PolQA: Polish Question Answering Dataset [10.479223888508194]
OpenQAの最初のポーランドのデータセットであるPolQAをリリースします。
7000の質問、87,525の手動による証拠通路、そして7,097,322の候補通路からなるコーパスで構成されている。
論文 参考訳(メタデータ) (2022-12-17T15:20:18Z) - Discourse Analysis via Questions and Answers: Parsing Dependency
Structures of Questions Under Discussion [57.43781399856913]
この研究は、談話分析にQUD(Language framework of Questions Under discussion)を採用する。
我々は、文間の関係を、徹底的なきめ細かい質問とは対照的に、自由形式の質問として特徴づける。
完全文書上の質問の依存関係構造を導出する第一種QUDを開発する。
論文 参考訳(メタデータ) (2022-10-12T03:53:12Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Practical Annotation Strategies for Question Answering Datasets [44.405498237885354]
そこで本研究では,ドメイン内および外部の両方のパフォーマンスを維持しつつ,アノテーションのコストを削減できるように,サブセットのアノテートのためのルールを開発する。
当社の作業は,予算のラベル付けが限定され,QAデータセットのアノテートに要する推奨がよりコスト効率良く必要となる場合に,現実的な要求を満たす。
論文 参考訳(メタデータ) (2020-03-06T14:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。