論文の概要: Can Vision-Language Models Replace Human Annotators: A Case Study with CelebA Dataset
- arxiv url: http://arxiv.org/abs/2410.09416v1
- Date: Sat, 12 Oct 2024 07:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:34:09.514861
- Title: Can Vision-Language Models Replace Human Annotators: A Case Study with CelebA Dataset
- Title(参考訳): 視覚言語モデルが人間のアノテーションを置き換える:CelebAデータセットを用いたケーススタディ
- Authors: Haoming Lu, Feifei Zhong,
- Abstract要約: 本研究では、画像データアノテーションにおける視覚言語モデル(VLM)の能力を評価する。
1000CelebA画像上の最先端のLLa-NeXTモデルからのVAは、オリジナルの人間のアノテーションと79.5%の一致である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the capability of Vision-Language Models (VLMs) in image data annotation by comparing their performance on the CelebA dataset in terms of quality and cost-effectiveness against manual annotation. Annotations from the state-of-the-art LLaVA-NeXT model on 1000 CelebA images are in 79.5% agreement with the original human annotations. Incorporating re-annotations of disagreed cases into a majority vote boosts AI annotation consistency to 89.1% and even higher for more objective labels. Cost assessments demonstrate that AI annotation significantly reduces expenditures compared to traditional manual methods -- representing less than 1% of the costs for manual annotation in the CelebA dataset. These findings support the potential of VLMs as a viable, cost-effective alternative for specific annotation tasks, reducing both financial burden and ethical concerns associated with large-scale manual data annotation. The AI annotations and re-annotations utilized in this study are available on https://github.com/evev2024/EVEV2024_CelebA.
- Abstract(参考訳): 本研究では,画像データアノテーションにおける視覚言語モデル(VLM)の有効性を,手動アノテーションに対する品質と費用対効果の観点から,CelebAデータセット上での性能を比較することによって評価する。
1000 CelebA画像上の最先端のLLaVA-NeXTモデルからのアノテーションは、オリジナルの人間のアノテーションと79.5%の一致である。
不一致事例の再注釈を多数決に組み込むことで、AIアノテーションの一貫性が89.1%に向上し、より客観的なラベルがさらに高くなる。
コストアセスメントは、CelebAデータセットにおける手動アノテーションのコストの1%未満である従来の手動メソッドと比較して、AIアノテーションが費用を大幅に削減することを示している。
これらの知見は、VLMが特定のアノテーションタスクの実用的で費用効果の高い代替手段となる可能性を支持し、大規模手動データアノテーションに関連する金銭的負担と倫理的懸念の軽減を図っている。
この研究で使用されるAIアノテーションと再アノテーションはhttps://github.com/evev2024/EVEV2024_CelebAで公開されている。
関連論文リスト
- Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - Vision-language Assisted Attribute Learning [53.60196963381315]
大規模な属性ラベリングは通常不完全で部分的である。
既存の属性学習手法は、欠落したラベルを否定的な扱いをすることが多い。
利用可能な視覚言語知識を活用して、モデル学習の強化に欠落しているラベルを明確に明らかにする。
論文 参考訳(メタデータ) (2023-12-12T06:45:19Z) - Interactive Multi-fidelity Learning for Cost-effective Adaptation of
Language Model with Sparse Human Supervision [6.151133144093847]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示した。
本稿では,小規模ドメイン固有LMの費用対効果向上を目的とした,インタラクティブ多要素学習(IMFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:39:23Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。