論文の概要: Best Practices for Managing Data Annotation Projects
- arxiv url: http://arxiv.org/abs/2009.11654v1
- Date: Thu, 24 Sep 2020 13:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 02:43:37.429922
- Title: Best Practices for Managing Data Annotation Projects
- Title(参考訳): データアノテーションプロジェクトを管理するベストプラクティス
- Authors: Tina Tseng and Amanda Stent and Domenic Maida
- Abstract要約: アノテーションは人間の努力によるデータのラベル付けです
このレポートは、BloombergのGlobal Data部門で30人以上の経験豊富なアノテーションプロジェクトマネージャから集められた、適用されたアノテーションプロジェクトに対する多くの知恵を捉えています。
- 参考スコア(独自算出の注目度): 2.3547782517407247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotation is the labeling of data by human effort. Annotation is critical to
modern machine learning, and Bloomberg has developed years of experience of
annotation at scale. This report captures a wealth of wisdom for applied
annotation projects, collected from more than 30 experienced annotation project
managers in Bloomberg's Global Data department.
- Abstract(参考訳): アノテーションは人間の努力によるデータのラベル付けである。
アノテーションは現代の機械学習にとって重要であり、Bloombergは大規模なアノテーションの経験を何年も発展させてきた。
このレポートは、ブルームバーグのグローバルデータ部門の30人以上の経験豊富なアノテーションプロジェクトマネージャから収集された、応用アノテーションプロジェクトのための豊富な知識を捉えている。
関連論文リスト
- Annotation Sensitivity: Training Data Collection Methods Affect Model
Performance [7.066223472133622]
この研究は、アノテーションを作成する際の設計上の選択が、結果として得られるアノテーションに基づいてトレーニングされたモデルにも影響を及ぼすことを示した。
本研究では,アノテータをランダムにアノテータにアノテータを割り当てた5つの実験条件において,ヘイトスピーチのアノテーションと攻撃言語を収集する。
その結果,1)ヘイトスピーチ/感情言語アノテーションの共有,2)モデル性能,3)モデル予測,および4)モデル学習曲線の相違が認められた。
論文 参考訳(メタデータ) (2023-11-23T21:54:22Z) - Unveiling the Multi-Annotation Process: Examining the Influence of
Annotation Quantity and Instance Difficulty on Model Performance [1.7343894615131372]
データセットがインスタンス毎にひとつのアノテーションから複数のアノテーションに拡張された場合、パフォーマンススコアがどのように変化するかを示す。
アノテーション予算の異なるデータセットを生成するための,新しいマルチアノテーションシミュレーションプロセスを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:12:41Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - Is GPT-3 a Good Data Annotator? [30.9559541574174]
GPT-3はOpenAIが開発した大規模言語モデルである。
本稿では,データアノテータとしてのGPT-3の性能を評価する。
論文 参考訳(メタデータ) (2022-12-20T17:28:41Z) - Urban Scene Semantic Segmentation with Low-Cost Coarse Annotation [107.72926721837726]
粗いアノテーションは、セマンティックセグメンテーションモデルをトレーニングするための、低コストで非常に効果的な代替手段である。
粗い注釈付きデータの未ラベル領域の擬似ラベルを生成する粗大な自己学習フレームワークを提案する。
提案手法は,アノテーションの予算のごく一部で完全に注釈付けされたデータに匹敵する性能が得られるため,大幅な性能向上とアノテーションのコストトレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-15T15:43:42Z) - SciAnnotate: A Tool for Integrating Weak Labeling Sources for Sequence
Labeling [55.71459234749639]
SciAnnotateはSciAnnotateという名前のテキストアノテーションのためのウェブベースのツールで、科学的なアノテーションツールを指す。
我々のツールは、弱いラベルを作成するために複数のユーザフレンドリーなインターフェースを提供する。
本研究では,Bertifying Conditional Hidden Markov Modelを用いて,ツールが生成する弱いラベルを識別する手法を提案する。
論文 参考訳(メタデータ) (2022-08-07T19:18:13Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Re-Examining Human Annotations for Interpretable NLP [80.81532239566992]
我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。
我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。
以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
論文 参考訳(メタデータ) (2022-04-10T02:27:30Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。