論文の概要: Best Practices for Managing Data Annotation Projects
- arxiv url: http://arxiv.org/abs/2009.11654v1
- Date: Thu, 24 Sep 2020 13:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 02:43:37.429922
- Title: Best Practices for Managing Data Annotation Projects
- Title(参考訳): データアノテーションプロジェクトを管理するベストプラクティス
- Authors: Tina Tseng and Amanda Stent and Domenic Maida
- Abstract要約: アノテーションは人間の努力によるデータのラベル付けです
このレポートは、BloombergのGlobal Data部門で30人以上の経験豊富なアノテーションプロジェクトマネージャから集められた、適用されたアノテーションプロジェクトに対する多くの知恵を捉えています。
- 参考スコア(独自算出の注目度): 2.3547782517407247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotation is the labeling of data by human effort. Annotation is critical to
modern machine learning, and Bloomberg has developed years of experience of
annotation at scale. This report captures a wealth of wisdom for applied
annotation projects, collected from more than 30 experienced annotation project
managers in Bloomberg's Global Data department.
- Abstract(参考訳): アノテーションは人間の努力によるデータのラベル付けである。
アノテーションは現代の機械学習にとって重要であり、Bloombergは大規模なアノテーションの経験を何年も発展させてきた。
このレポートは、ブルームバーグのグローバルデータ部門の30人以上の経験豊富なアノテーションプロジェクトマネージャから収集された、応用アノテーションプロジェクトのための豊富な知識を捉えている。
関連論文リスト
- Large Language Models for Data Annotation: A Survey [58.454724454158814]
LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Unveiling the Multi-Annotation Process: Examining the Influence of
Annotation Quantity and Instance Difficulty on Model Performance [1.7343894615131372]
データセットがインスタンス毎にひとつのアノテーションから複数のアノテーションに拡張された場合、パフォーマンススコアがどのように変化するかを示す。
アノテーション予算の異なるデータセットを生成するための,新しいマルチアノテーションシミュレーションプロセスを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:12:41Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced
Annotators [64.04060110775062]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
LLMをより良いアノテータにするために、我々は2段階のアプローチ「説明-then-annotate」を提案する。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Re-Examining Human Annotations for Interpretable NLP [80.81532239566992]
我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。
我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。
以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
論文 参考訳(メタデータ) (2022-04-10T02:27:30Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。