論文の概要: Efficient Annotator Reliability Assessment with EffiARA
- arxiv url: http://arxiv.org/abs/2504.00589v2
- Date: Thu, 03 Apr 2025 22:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 11:27:42.007940
- Title: Efficient Annotator Reliability Assessment with EffiARA
- Title(参考訳): EffiARAを用いた効率的なアノテータ信頼性評価
- Authors: Owen Cook, Jake Vasilakes, Ian Roberts, Xingyi Song,
- Abstract要約: EffiARAは、アノテーションタスクに必要なリソースの理解からアノテーション付きデータセットのコンパイルまで、アノテーションパイプライン全体をサポートするフレームワークである。
このフレームワークの有効性は、アノテータ信頼度に基づくソフトラベル凝集とサンプル重み付けによる分類性能の向上と、アノテータ間の全体的な合意の増大という2つの先行研究によって支持されている。
この作業は、EffiARA Pythonパッケージとそれに伴うwebtoolを導入し、システムに対してアクセス可能なグラフィカルユーザインターフェースを提供する。
- 参考スコア(独自算出の注目度): 1.5145272476388434
- License:
- Abstract: Data annotation is an essential component of the machine learning pipeline; it is also a costly and time-consuming process. With the introduction of transformer-based models, annotation at the document level is increasingly popular; however, there is no standard framework for structuring such tasks. The EffiARA annotation framework is, to our knowledge, the first project to support the whole annotation pipeline, from understanding the resources required for an annotation task to compiling the annotated dataset and gaining insights into the reliability of individual annotators as well as the dataset as a whole. The framework's efficacy is supported by two previous studies: one improving classification performance through annotator-reliability-based soft label aggregation and sample weighting, and the other increasing the overall agreement among annotators through removing identifying and replacing an unreliable annotator. This work introduces the EffiARA Python package and its accompanying webtool, which provides an accessible graphical user interface for the system. We open-source the EffiARA Python package at https://github.com/MiniEggz/EffiARA and the webtool is publicly accessible at https://effiara.gate.ac.uk.
- Abstract(参考訳): データアノテーションは機械学習パイプラインの重要なコンポーネントであり、コストと時間のかかるプロセスでもある。
トランスフォーマーベースのモデルの導入により、ドキュメントレベルでのアノテーションはますます普及しているが、そのようなタスクを構築するための標準フレームワークは存在しない。
EffiARAアノテーションフレームワークは、私たちの知る限り、アノテーションパイプライン全体をサポートする最初のプロジェクトであり、アノテーションタスクに必要なリソースを理解し、注釈付きデータセットをコンパイルし、個々のアノテーションとデータセット全体の信頼性に関する洞察を得る。
このフレームワークの有効性は、アノテータ-信頼性に基づくソフトラベル凝集とサンプル重み付けによる分類性能の向上と、信頼できないアノテータの識別と置換によるアノテータ間の全体的な一致の向上の2つの先行研究によって支持されている。
この作業は、EffiARA Pythonパッケージとそれに伴うwebtoolを導入し、システムに対してアクセス可能なグラフィカルユーザインターフェースを提供する。
https://github.com/MiniEggz/EffiARAでEffiARA Pythonパッケージをオープンソース化しました。
関連論文リスト
- UIFormer: A Unified Transformer-based Framework for Incremental Few-Shot Object Detection and Instance Segmentation [38.331860053615955]
本稿では,Transformerアーキテクチャを用いたインクリメンタルな小ショットオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)のための新しいフレームワークを提案する。
私たちのゴールは、新しいオブジェクトクラスのいくつかの例しか利用できない状況に対して最適なソリューションを作ることです。
論文 参考訳(メタデータ) (2024-11-13T12:29:44Z) - GeoContrastNet: Contrastive Key-Value Edge Learning for Language-Agnostic Document Understanding [4.258365032282028]
グラフアテンションネットワーク(GAT)と対照的な学習目標を統合することにより、構造化文書理解(DU)に言語に依存しないフレームワークを提案する。
本稿では、幾何学的エッジ特徴と視覚的特徴を組み合わせた2段階のGATベースのフレームワークを提案する。
この結果から,FUNSDデータセット内の鍵値関係を形式として同定し,RVLCDIPビジネス請求書の表構造レイアウトにおける空間的関係を見出した。
論文 参考訳(メタデータ) (2024-05-06T01:40:20Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Thresh: A Unified, Customizable and Deployable Platform for Fine-Grained
Text Evaluation [11.690442820401453]
Threshは、きめ細かい評価のための統一的でカスタマイズ可能な、デプロイ可能なプラットフォームです。
Threshはコミュニティハブを提供する。コミュニティによって作成され、収集される、きめ細かいフレームワークとそれに対応するアノテーションのコレクションをホストする。
Threshは、小さな手動検査から大規模なクラウドソーシングまで、あらゆる規模のアノテーションプロジェクトに対して、複数のオプションを提供している。
論文 参考訳(メタデータ) (2023-08-14T06:09:51Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Visual Recognition by Request [111.94887516317735]
視覚認識のためのアノテーションと評価の新しいプロトコルを提案する。
すべてのターゲット(オブジェクト、部品など)を一度にアノテート/認識するためにラベルやアルゴリズムを必要とせず、代わりに多数の認識命令を発生させ、アルゴリズムは要求によってターゲットを認識する。
CPP と ADE20K という2つの混合注釈付きデータセットに対する認識システムの評価を行い,その有望な学習能力を部分的にラベル付けしたデータから示す。
論文 参考訳(メタデータ) (2022-07-28T16:55:11Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Omni-DETR: Omni-Supervised Object Detection with Transformers [165.4190908259015]
我々は、ラベルなし、完全ラベル付き、弱ラベル付きアノテーションを使用できるOmni教師付きオブジェクト検出の問題を考察する。
この統一アーキテクチャの下では、異なる種類の弱いラベルを利用して正確な擬似ラベルを生成することができる。
弱いアノテーションは検出性能を向上させるのに役立ち、それらの混合はアノテーションのコストと精度のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2022-03-30T06:36:09Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - FAMIE: A Fast Active Learning Framework for Multilingual Information
Extraction [40.28976617483996]
FAMIEは多言語情報抽出のための総合的で効率的な能動学習ツールキットである。
高速なデータ選択に小さなプロキシネットワークを使用するというアイデアに基づいて,新しい知識蒸留機構を導入する。
ALを用いたシーケンスラベリングにおいて、競合性能と時間効率の観点からFAMIEの利点を実証した。
論文 参考訳(メタデータ) (2022-02-16T20:11:31Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。