論文の概要: Leveraging Human-Machine Interactions for Computer Vision Dataset
Quality Enhancement
- arxiv url: http://arxiv.org/abs/2401.17736v1
- Date: Wed, 31 Jan 2024 10:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:04:54.864453
- Title: Leveraging Human-Machine Interactions for Computer Vision Dataset
Quality Enhancement
- Title(参考訳): コンピュータビジョンデータセット品質向上のための人間-機械インタラクションの活用
- Authors: Esla Timothy Anzaku (1,2,3), Hyesoo Hong (1), Jin-Woo Park (1), Wonjun
Yang (1), Kangmin Kim (1), JongBum Won (1), Deshika Vinoshani Kumari Herath
(6), Arnout Van Messem (5) and Wesley De Neve (1,2,3)
- Abstract要約: emphImageNet-1kのようなシングルラベルのマルチクラス分類のための大規模データセットは、ディープラーニングやコンピュータビジョンの進歩に役立っている。
我々は、効率的なデータセット検証と品質向上のために、人間とマシンインテリジェンスをシナジする軽量でユーザフレンドリでスケーラブルなフレームワークを導入します。
ImageNetV2データセットでMultilabelfyを使用することで、画像の約47.88%が少なくとも2つのラベルを含んでいることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale datasets for single-label multi-class classification, such as
\emph{ImageNet-1k}, have been instrumental in advancing deep learning and
computer vision. However, a critical and often understudied aspect is the
comprehensive quality assessment of these datasets, especially regarding
potential multi-label annotation errors. In this paper, we introduce a
lightweight, user-friendly, and scalable framework that synergizes human and
machine intelligence for efficient dataset validation and quality enhancement.
We term this novel framework \emph{Multilabelfy}. Central to Multilabelfy is an
adaptable web-based platform that systematically guides annotators through the
re-evaluation process, effectively leveraging human-machine interactions to
enhance dataset quality. By using Multilabelfy on the ImageNetV2 dataset, we
found that approximately $47.88\%$ of the images contained at least two labels,
underscoring the need for more rigorous assessments of such influential
datasets. Furthermore, our analysis showed a negative correlation between the
number of potential labels per image and model top-1 accuracy, illuminating a
crucial factor in model evaluation and selection. Our open-source framework,
Multilabelfy, offers a convenient, lightweight solution for dataset
enhancement, emphasizing multi-label proportions. This study tackles major
challenges in dataset integrity and provides key insights into model
performance evaluation. Moreover, it underscores the advantages of integrating
human expertise with machine capabilities to produce more robust models and
trustworthy data development. The source code for Multilabelfy will be
available at https://github.com/esla/Multilabelfy.
\keywords{Computer Vision \and Dataset Quality Enhancement \and Dataset
Validation \and Human-Computer Interaction \and Multi-label Annotation.}
- Abstract(参考訳): emph{ImageNet-1k}のようなシングルラベルのマルチクラス分類のための大規模データセットは、ディープラーニングやコンピュータビジョンの進歩に役立っている。
しかし、批判的かつしばしば検討される側面は、これらのデータセットの総合的な品質評価である。
本稿では,効率的なデータセット検証と品質向上のために,人間と機械の知能を融合する軽量でユーザフレンドリーでスケーラブルなフレームワークを提案する。
この新しいフレームワークを 'emph{Multilabelfy} と呼ぶ。
Central to Multilabelfyは、アノテータを再評価プロセスを通じて体系的にガイドする、適応可能なWebベースのプラットフォームである。
ImageNetV2データセットでMultilabelfyを使用することで、画像の約47.88.%が少なくとも2つのラベルを含んでおり、そのような影響のあるデータセットの厳密な評価の必要性が強調された。
さらに,画像毎の電位ラベル数とモデルトップ1の精度との間に負の相関がみられ,モデル評価と選択において重要な要因が示された。
当社のオープンソースフレームワークであるmultilabelfyは,マルチラベル比率を重視した,データセット拡張のための便利な軽量なソリューションを提供します。
本研究は,データセットの完全性に関する大きな課題に取り組み,モデルの性能評価に関する重要な洞察を提供する。
さらに、より堅牢なモデルと信頼できるデータ開発を生み出すために、人間の専門知識と機械能力を統合する利点を強調する。
multilabelfyのソースコードはhttps://github.com/esla/multilabelfyで入手できる。
キーワード{Computer Vision \and Dataset Quality Enhancement \and Dataset Validation \and Human-Computer Interaction \and Multi-label Annotation。
}
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - CoVLM: Leveraging Consensus from Vision-Language Models for Semi-supervised Multi-modal Fake News Detection [15.264492633817774]
我々は、実画像と偽ニュースを生成する誤ったキャプションをペアリングする、文脈外誤情報検出の現実的かつ挑戦的な課題に対処する。
このタスクの既存のアプローチは、大量のラベル付きデータの可用性を前提としています。
そこで本研究では,ラベル付き画像テキストペアとラベルなし画像ペアの大規模コーパスに限定的にアクセス可能な半教師付きプロトコルを提案する。
論文 参考訳(メタデータ) (2024-10-06T09:45:20Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Neural Relation Graph: A Unified Framework for Identifying Label Noise
and Outlier Data [44.64190826937705]
本稿では,データのリレーショナルグラフ構造に基づいてラベルエラーや外れ値データを検出するスケーラブルなアルゴリズムを提案する。
また,特徴埋め込み空間におけるデータポイントのコンテキスト情報を提供する可視化ツールも導入した。
提案手法は,検討対象のタスクすべてに対して最先端検出性能を達成し,大規模実世界のデータセットでその有効性を実証する。
論文 参考訳(メタデータ) (2023-01-29T02:09:13Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - End-to-End Learning from Noisy Crowd to Supervised Machine Learning
Models [6.278267504352446]
我々は、ハイブリッドインテリジェンス、すなわち深層モデルと人間の専門家を組み合わせることで、ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計することを提唱する。
ラベルアグリゲーションは,アノテータの混乱行列を推定して学習プロセスを改善することにより,どのような効果があるかを示す。
我々は、SVMとディープニューラルネットワークを用いて、複数の画像データセット上での戦略の有効性を実証する。
論文 参考訳(メタデータ) (2020-11-13T09:48:30Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。