論文の概要: Selective Annotation via Data Allocation: These Data Should Be Triaged to Experts for Annotation Rather Than the Model
- arxiv url: http://arxiv.org/abs/2405.12081v1
- Date: Mon, 20 May 2024 14:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 12:55:09.382331
- Title: Selective Annotation via Data Allocation: These Data Should Be Triaged to Experts for Annotation Rather Than the Model
- Title(参考訳): データアロケーションによる選択的アノテーション:これらのデータはモデルではなくアノテーションのために専門家にトリアージされるべきである
- Authors: Chen Huang, Yang Deng, Wenqiang Lei, Jiancheng Lv, Ido Dagan,
- Abstract要約: 我々は、SANTと呼ばれる選択的なアノテーションフレームワークを提案する。
提案した誤り認識トリアージと二重み付け機構により、トリアージ・ツー・ヒューマンデータとトリアージ・ツー・モデルデータの両方を効果的に活用する。
実験の結果、SANTは他のベースラインを一貫して上回り、専門家とモデルワーカーの両方にデータの適切な割り当てを通じて高品質なアノテーションをもたらすことが示された。
- 参考スコア(独自算出の注目度): 42.70608373297776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To obtain high-quality annotations under limited budget, semi-automatic annotation methods are commonly used, where a portion of the data is annotated by experts and a model is then trained to complete the annotations for the remaining data. However, these methods mainly focus on selecting informative data for expert annotations to improve the model predictive ability (i.e., triage-to-human data), while the rest of the data is indiscriminately assigned to model annotation (i.e., triage-to-model data). This may lead to inefficiencies in budget allocation for annotations, as easy data that the model could accurately annotate may be unnecessarily assigned to the expert, and hard data may be misclassified by the model. As a result, the overall annotation quality may be compromised. To address this issue, we propose a selective annotation framework called SANT. It effectively takes advantage of both the triage-to-human and triage-to-model data through the proposed error-aware triage and bi-weighting mechanisms. As such, informative or hard data is assigned to the expert for annotation, while easy data is handled by the model. Experimental results show that SANT consistently outperforms other baselines, leading to higher-quality annotation through its proper allocation of data to both expert and model workers. We provide pioneering work on data annotation within budget constraints, establishing a landmark for future triage-based annotation studies.
- Abstract(参考訳): 限られた予算下で高品質なアノテーションを得るために、半自動アノテーション法が一般的に用いられ、データの一部を専門家によって注釈付けされ、残りのデータに対するアノテーションを完成させるためにモデルが訓練される。
しかしながら、これらの手法は主に、モデル予測能力(トリアージ・トゥ・ヒューマン・データ)を改善するために専門家アノテーションのための情報的データを選択することに焦点を当て、残りのデータはモデルアノテーション(トリアージ・トゥ・モデル・データ)に無差別に割り当てられている。
これはアノテーションの予算配分の非効率につながる可能性がある。モデルが正確にアノテートできる簡単なデータは専門家に不要に割り当てられる可能性があるし、ハードデータはモデルによって誤って分類される可能性があるからだ。
その結果、全体的なアノテーションの品質が損なわれる可能性がある。
この問題に対処するため、我々はSANTと呼ばれる選択的なアノテーションフレームワークを提案する。
提案した誤り認識トリアージと二重み付け機構により、トリアージ・ツー・ヒューマンデータとトリアージ・ツー・モデルデータの両方を効果的に活用する。
そのため、情報的あるいはハードなデータは専門家にアノテーションとして割り当てられ、簡単なデータはモデルによって処理される。
実験の結果、SANTは他のベースラインを一貫して上回り、専門家とモデルワーカーの両方にデータの適切な割り当てを通じて高品質なアノテーションをもたらすことが示された。
我々は、予算制約の中でデータアノテーションに関する先駆的な研究を行い、将来のトリアージベースのアノテーション研究のランドマークを確立します。
関連論文リスト
- Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - From Random to Informed Data Selection: A Diversity-Based Approach to
Optimize Human Annotation and Few-Shot Learning [38.30983556062276]
自然言語処理における大きな課題は、教師付き学習のための注釈付きデータを取得することである。
クラウドソーシングは、アノテータの経験、一貫性、バイアスに関連する問題を導入する。
本稿では,数ショット学習のための小さなデータセットを構築するための,自動的および情報的データ選択アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:57:32Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - GPT Self-Supervision for a Better Data Annotator [22.598300095822026]
本稿では,GPT(Generative Pretrained Transformer)自己スーパービジョンアノテーション手法を提案する。
提案手法は1ショットのチューニングフェーズと生成フェーズから構成される。
復元されたデータと元のデータのアライメントスコアは、プロセスを洗練するための自己超越ナビゲータとして機能する。
論文 参考訳(メタデータ) (2023-06-07T11:33:14Z) - Full or Weak annotations? An adaptive strategy for budget-constrained
annotation campaigns [3.1318537187387787]
セグメンテーションデータセットのアノテーション戦略を決定する新しい手法を提案する。
提案手法は, 分割と分類アノテーションの比率を連続的に決定し, 予算制約の収集を行う。
実験では、さまざまなアノテーション予算とデータセットに対して最適に非常に近いアノテーションが得られたことを示します。
論文 参考訳(メタデータ) (2023-03-21T08:41:54Z) - Urban Scene Semantic Segmentation with Low-Cost Coarse Annotation [107.72926721837726]
粗いアノテーションは、セマンティックセグメンテーションモデルをトレーニングするための、低コストで非常に効果的な代替手段である。
粗い注釈付きデータの未ラベル領域の擬似ラベルを生成する粗大な自己学習フレームワークを提案する。
提案手法は,アノテーションの予算のごく一部で完全に注釈付けされたデータに匹敵する性能が得られるため,大幅な性能向上とアノテーションのコストトレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-15T15:43:42Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Re-Examining Human Annotations for Interpretable NLP [80.81532239566992]
我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。
我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。
以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
論文 参考訳(メタデータ) (2022-04-10T02:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。