論文の概要: Annotation Curricula to Implicitly Train Non-Expert Annotators
- arxiv url: http://arxiv.org/abs/2106.02382v1
- Date: Fri, 4 Jun 2021 09:48:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:07:20.576629
- Title: Annotation Curricula to Implicitly Train Non-Expert Annotators
- Title(参考訳): 非専門的アノテーションを暗黙的に訓練するアノテーションカリキュラム
- Authors: Ji-Ung Lee and Jan-Christoph Klie and Iryna Gurevych
- Abstract要約: 自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
- 参考スコア(独自算出の注目度): 56.67768938052715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Annotation studies often require annotators to familiarize themselves with
the task, its annotation scheme, and the data domain. This can be overwhelming
in the beginning, mentally taxing, and induce errors into the resulting
annotations; especially in citizen science or crowd sourcing scenarios where
domain expertise is not required and only annotation guidelines are provided.
To alleviate these issues, we propose annotation curricula, a novel approach to
implicitly train annotators. Our goal is to gradually introduce annotators into
the task by ordering instances that are annotated according to a learning
curriculum. To do so, we first formalize annotation curricula for sentence- and
paragraph-level annotation tasks, define an ordering strategy, and identify
well-performing heuristics and interactively trained models on three existing
English datasets. We then conduct a user study with 40 voluntary participants
who are asked to identify the most fitting misconception for English tweets
about the Covid-19 pandemic. Our results show that using a simple heuristic to
order instances can already significantly reduce the total annotation time
while preserving a high annotation quality. Annotation curricula thus can
provide a novel way to improve data collection. To facilitate future research,
we further share our code and data consisting of 2,400 annotations.
- Abstract(参考訳): アノテーション研究では、しばしば、アノテーションはタスク、そのアノテーションスキーム、データドメインに精通する必要がある。
これは初期の段階では圧倒的であり、特に市民科学やクラウドソーシングのシナリオでは、ドメインの専門知識は必要とせず、アノテーションガイドラインのみを提供する。
これらの問題を緩和するために、暗黙的にアノテーションを訓練する新しいアプローチであるアノテーションキュリキュラを提案する。
我々のゴールは、学習カリキュラムに従ってアノテートされたインスタンスを注文することで、タスクにアノテータを徐々に導入することである。
そこで我々はまず,文および段落レベルのアノテーションタスクのためのアノテーションキュリキュラを定式化し,順序付け戦略を定義し,既存の3つの英語データセット上で,優れたヒューリスティックと対話的に訓練されたモデルを特定する。
次に、Covid-19パンデミックに関する英語のツイートに対する最も適した誤解を特定するよう依頼される40人の自発的参加者とユーザスタディを実施します。
以上の結果から,単純なヒューリスティックな注文インスタンスを用いることで,アノテーションの品質を保ちつつ,アノテーション全体の時間を大幅に短縮できることがわかった。
これにより、アノテーションキュリキュラは、データ収集を改善する新しい方法を提供することができる。
今後の研究を促進するため、2,400のアノテーションからなるコードとデータをさらに共有します。
関連論文リスト
- On-the-Fly Point Annotation for Fast Medical Video Labeling [1.890063512530524]
医学研究において、ディープラーニングモデルは高品質な注釈付きデータに依存している。
2つのコーナーを調整する必要があるため、プロセスは本質的にフレーム単位で行われる。
そこで本研究では,ライブビデオアノテーションのオンザフライ方式を提案し,アノテーションの効率を向上させる。
論文 参考訳(メタデータ) (2024-04-22T16:59:43Z) - From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Extending an Event-type Ontology: Adding Verbs and Classes Using
Fine-tuned LLMs Suggestions [0.0]
語彙拡張タスクに先進的な機械学習手法を用いて事前アノテートしたデータについて検討した。
自動スコアと人間のアノテーションの相関について検討した。
相関性は強いが, アノテーションの固有性に対する影響は, ほぼ線形性から緩やかである。
論文 参考訳(メタデータ) (2023-06-03T14:57:47Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks [17.033055327465238]
データアノテーションのためのコントラストパラダイムを2つ提案する。
記述的パラダイムはアノテータの主観性を促進するが、規範的パラダイムはそれを妨げている。
データセット作成者は、データセットの意図した使用を促進するために、どちらか一方を明示的に目標にすべきである、と私たちは主張する。
論文 参考訳(メタデータ) (2021-12-14T15:38:22Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Active Learning for Coreference Resolution using Discrete Annotation [76.36423696634584]
我々は、コア参照解決におけるアクティブラーニングのためのペアワイズアノテーションを改善した。
提案された参照ペアがコアフェレントでないと判断された場合、アノテータに参照アンテセントを識別するよう依頼する。
既存のベンチマークコアベンチマークデータセットを用いた実験では、この追加質問からの信号が人間のアノテーション時間当たりの大幅なパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-04-28T17:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。