論文の概要: Sanitizing Manufacturing Dataset Labels Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.23465v1
- Date: Mon, 30 Jun 2025 02:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.890215
- Title: Sanitizing Manufacturing Dataset Labels Using Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルを用いた製造データセットの衛生化
- Authors: Nazanin Mahjourian, Vinh Nguyen,
- Abstract要約: 本稿では,ラベル・サニタイズ・リファインメントのための視覚言語ベースのフレームワークであるVLSRについて紹介する。
この方法は、CLIPビジョン言語モデルを利用して、画像とその関連するテキストラベルを共有意味空間に埋め込む。
実験の結果、VLSRフレームワークは問題のあるラベルの識別に成功し、ラベルの一貫性を向上させることがわかった。
- 参考スコア(独自算出の注目度): 1.0819408603463427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of machine learning models in industrial applications is heavily dependent on the quality of the datasets used to train the models. However, large-scale datasets, specially those constructed from crowd-sourcing and web-scraping, often suffer from label noise, inconsistencies, and errors. This problem is particularly pronounced in manufacturing domains, where obtaining high-quality labels is costly and time-consuming. This paper introduces Vision-Language Sanitization and Refinement (VLSR), which is a vision-language-based framework for label sanitization and refinement in multi-label manufacturing image datasets. This method embeds both images and their associated textual labels into a shared semantic space leveraging the CLIP vision-language model. Then two key tasks are addressed in this process by computing the cosine similarity between embeddings. First, label sanitization is performed to identify irrelevant, misspelled, or semantically weak labels, and surface the most semantically aligned label for each image by comparing image-label pairs using cosine similarity between image and label embeddings. Second, the method applies density-based clustering on text embeddings, followed by iterative cluster merging, to group semantically similar labels into unified label groups. The Factorynet dataset, which includes noisy labels from both human annotations and web-scraped sources, is employed to evaluate the effectiveness of the proposed framework. Experimental results demonstrate that the VLSR framework successfully identifies problematic labels and improves label consistency. This method enables a significant reduction in label vocabulary through clustering, which ultimately enhances the dataset's quality for training robust machine learning models in industrial applications with minimal human intervention.
- Abstract(参考訳): 産業アプリケーションにおける機械学習モデルの成功は、モデルをトレーニングするために使用されるデータセットの品質に大きく依存している。
しかし、大規模なデータセット、特にクラウドソーシングやウェブスクラッピングで構築されたデータセットは、しばしばラベルノイズ、矛盾、エラーに悩まされる。
この問題は、高品質なラベルの取得がコストと時間を要する製造領域で特に顕著である。
本稿では,多ラベル製造画像データセットにおけるラベルのサニタイズと改善のための視覚言語ベースのフレームワークであるVLSRについて紹介する。
この方法は、CLIPビジョン言語モデルを利用して、画像とその関連するテキストラベルを共有意味空間に埋め込む。
次に、埋め込み間のコサイン類似性を計算することで、このプロセスで2つの重要なタスクに対処する。
まず、ラベルのサニタイズを行い、画像とラベルの埋め込みのコサイン類似性を用いて画像とラベルのペアを比較し、画像の無関係、ミススペル、または意味的に弱いラベルを識別し、各画像の最も意味的に整合したラベルを表面化する。
第2に、テキスト埋め込みに密度に基づくクラスタリングを適用し、続いて反復的なクラスタマージを行い、意味的に類似したラベルを統一されたラベルグループにグループ化する。
提案するフレームワークの有効性を評価するために,人間のアノテーションとWebスクラッドソースのノイズラベルを含むファクトリネットデータセットが使用されている。
実験の結果,VLSRフレームワークは問題のあるラベルの識別に成功し,ラベルの一貫性が向上した。
この方法により、クラスタリングによるラベル語彙の大幅な削減が可能になり、究極的には、人間の介入を最小限に抑えた産業アプリケーションにおいて、堅牢な機械学習モデルをトレーニングするためのデータセットの品質を高めることができる。
関連論文リスト
- Zero-Shot Pseudo Labels Generation Using SAM and CLIP for Semi-Supervised Semantic Segmentation [0.0]
注釈付きラベルと擬似ラベルを用いた画像を用いた意味的セグメンテーションモデルを訓練する手法を提案する。
モデルの精度は、擬似ラベルの品質と注釈付きラベルによるデータの量に依存する。
提案手法の有効性は,公開データセットであるPASCALとMS COCOを用いて実証した。
論文 参考訳(メタデータ) (2025-05-26T11:31:13Z) - When VLMs Meet Image Classification: Test Sets Renovation via Missing Label Identification [11.49089004019603]
本稿では,画像分類テストセットにおけるノイズラベルと欠落ラベルの両方に対処するため,REVEALという包括的フレームワークを提案する。
REVEALは潜在的なノイズのあるラベルや欠落を検出し、様々な方法から予測を集約し、信頼性インフォームド予測とコンセンサスに基づくフィルタリングによってラベルの精度を向上する。
提案手法は,公開データセットから欠落したラベルを効果的に明らかにし,ソフトラベルによる結果に可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T02:47:36Z) - Pseudo-labelling meets Label Smoothing for Noisy Partial Label Learning [8.387189407144403]
我々は、完全注釈付きデータセットのキュレーションが高価である問題に対する効果的な学習パラダイムとして、弱い教師付き学習を動機付けている。
PLL(Partial Learning)は、各トレーニングインスタンスが候補ラベルのセットとペアリングされる、弱い教師付き学習パラダイムである。
本稿では,近傍の重み付けアルゴリズムを用いて,まず画像に擬似ラベルを割り当てるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-07T13:32:47Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Towards Few-shot Entity Recognition in Document Images: A Label-aware
Sequence-to-Sequence Framework [28.898240725099782]
アノテーション付き文書画像のほんの数ショットしか必要としないエンティティ認識モデルを構築します。
ラベルを意識したSeq2seqフレームワーク LASER を開発した。
2つのベンチマークデータセットの実験は、数ショット設定下でのLASERの優位性を示している。
論文 参考訳(メタデータ) (2022-03-30T18:30:42Z) - Semantic-Aware Representation Blending for Multi-Label Image Recognition
with Partial Labels [86.17081952197788]
そこで我々は,未知のラベルを補うために,異なる画像にカテゴリ固有の表現をブレンドして,既知のラベルの情報を伝達することを提案する。
MS-COCO、Visual Genome、Pascal VOC 2007データセットの実験は、提案されたSARBフレームワークが、現在の主要な競合相手よりも優れたパフォーマンスを得ることを示している。
論文 参考訳(メタデータ) (2022-03-04T07:56:16Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。