論文の概要: Unveiling the Multi-Annotation Process: Examining the Influence of
Annotation Quantity and Instance Difficulty on Model Performance
- arxiv url: http://arxiv.org/abs/2310.14572v1
- Date: Mon, 23 Oct 2023 05:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 22:29:56.142615
- Title: Unveiling the Multi-Annotation Process: Examining the Influence of
Annotation Quantity and Instance Difficulty on Model Performance
- Title(参考訳): マルチアノテーションプロセスの展開:アノテーション量とインスタンスがモデル性能に与える影響の検討
- Authors: Pritam Kadasi and Mayank Singh
- Abstract要約: データセットがインスタンス毎にひとつのアノテーションから複数のアノテーションに拡張された場合、パフォーマンススコアがどのように変化するかを示す。
アノテーション予算の異なるデータセットを生成するための,新しいマルチアノテーションシミュレーションプロセスを提案する。
- 参考スコア(独自算出の注目度): 1.7343894615131372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The NLP community has long advocated for the construction of multi-annotator
datasets to better capture the nuances of language interpretation,
subjectivity, and ambiguity. This paper conducts a retrospective study to show
how performance scores can vary when a dataset expands from a single annotation
per instance to multiple annotations. We propose a novel multi-annotator
simulation process to generate datasets with varying annotation budgets. We
show that similar datasets with the same annotation budget can lead to varying
performance gains. Our findings challenge the popular belief that models
trained on multi-annotation examples always lead to better performance than
models trained on single or few-annotation examples.
- Abstract(参考訳): NLPコミュニティは、言語解釈、主観性、曖昧性のニュアンスをよりよく捉えるために、マルチアノテーションデータセットの構築を長年主張してきた。
本稿では,データセットがインスタンス毎にひとつのアノテーションから複数のアノテーションに拡張されると,パフォーマンススコアがどう変化するかを示す。
アノテーション予算の異なるデータセットを生成するための,新しいマルチアノテーションシミュレーションプロセスを提案する。
同じアノテーション予算を持つ同様のデータセットは、パフォーマンスの向上に繋がる可能性がある。
我々の発見は、マルチアノテーションの例でトレーニングされたモデルが、単一または少数アノテーションの例でトレーニングされたモデルよりも、常に優れたパフォーマンスをもたらすという一般的な信念に挑戦する。
関連論文リスト
- Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - Label-Efficient Model Selection for Text Generation [14.61636207880449]
DiffUseは、好みアノテーションに基づいた候補テキスト生成モデル間の情報決定を行う手法である。
何百ものモデルペアに対する一連の実験において、DiffUseは必要なアノテーション数を劇的に削減できることを示した。
論文 参考訳(メタデータ) (2024-02-12T18:54:02Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - Selective Annotation Makes Language Models Better Few-Shot Learners [97.07544941620367]
大規模な言語モデルはコンテキスト内学習を実行でき、いくつかのタスクデモから新しいタスクを学ぶことができる。
本研究は、新しい自然言語タスクのためのデータセット作成において、文脈内学習がもたらす意味について考察する。
本稿では,無教師付きグラフベースの選択的アノテーションであるvoke-kを提案する。
論文 参考訳(メタデータ) (2022-09-05T14:01:15Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Multivariate Data Explanation by Jumping Emerging Patterns Visualization [78.6363825307044]
多変量データセットにおけるパターンの識別と視覚的解釈を支援するVAX(multiVariate dAta eXplanation)を提案する。
既存の類似のアプローチとは異なり、VAXはJumping Emerging Patternsという概念を使って、複数の多様化したパターンを特定し、集約し、データ変数のロジックの組み合わせを通して説明を生成する。
論文 参考訳(メタデータ) (2021-06-21T13:49:44Z) - UmBERTo-MTSA @ AcCompl-It: Improving Complexity and Acceptability
Prediction with Multi-task Learning on Self-Supervised Annotations [0.0]
本研究は,ラベル付きデータの適度な使用量のみの学習モデルの性能向上に使用される,自己教師型データ拡張手法について述べる。
神経言語モデルは、EVALITA 2020におけるAcCompl-it共有タスクのコンテキストにおいて、この手順を用いて微調整される。
論文 参考訳(メタデータ) (2020-11-10T15:50:37Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - Joint Multi-Dimensional Model for Global and Time-Series Annotations [48.159050222769494]
クラウドソーシングは、ラベルのないデータインスタンスのアノテーションを収集する一般的なアプローチである。
その中には、複数のデータインスタンスから大量のアノテーションを集め、多くの場合、訓練されていないアノテータを各データインスタンスに集め、それらを組み合わせて基礎的な真実を見積もる。
しかし、ほとんどのアノテーション融合スキームはこの側面を無視し、各次元を別々にモデル化する。
本稿では,多次元アノテーション融合の生成モデルを提案する。
論文 参考訳(メタデータ) (2020-05-06T20:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。