論文の概要: LEMoN: Label Error Detection using Multimodal Neighbors
- arxiv url: http://arxiv.org/abs/2407.18941v1
- Date: Wed, 10 Jul 2024 19:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 01:16:12.975132
- Title: LEMoN: Label Error Detection using Multimodal Neighbors
- Title(参考訳): LEMoN:マルチモーダル近傍を用いたラベル誤り検出
- Authors: Haoran Zhang, Aparna Balagopalan, Nassim Oufattole, Hyewon Jeong, Yan Wu, Jiacheng Zhu, Marzyeh Ghassemi,
- Abstract要約: マルチモーダルデータセットにおけるラベルエラーを自動的に識別するLEMoNを提案する。
提案手法はラベル誤り識別におけるベースラインよりも優れており,本手法を用いてフィルタリングしたデータセットのトレーニングにより,下流分類とキャプション性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 30.253554432833873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large repositories of image-caption pairs are essential for the development of vision-language models. However, these datasets are often extracted from noisy data scraped from the web, and contain many mislabeled examples. In order to improve the reliability of downstream models, it is important to identify and filter images with incorrect captions. However, beyond filtering based on image-caption embedding similarity, no prior works have proposed other methods to filter noisy multimodal data, or concretely assessed the impact of noisy captioning data on downstream training. In this work, we propose LEMoN, a method to automatically identify label errors in multimodal datasets. Our method leverages the multimodal neighborhood of image-caption pairs in the latent space of contrastively pretrained multimodal models. We find that our method outperforms the baselines in label error identification, and that training on datasets filtered using our method improves downstream classification and captioning performance.
- Abstract(参考訳): 画像キャプチャペアの大規模なリポジトリは、視覚言語モデルの開発に不可欠である。
しかし、これらのデータセットは、Webから取り除かれたノイズの多いデータからしばしば抽出され、多くの誤ったラベル付きサンプルを含んでいる。
下流モデルの信頼性を向上させるためには,誤字幕による画像の識別とフィルタリングが重要である。
しかし、画像キャプション埋め込み類似性に基づくフィルタリング以外にも、ノイズの多いマルチモーダルデータをフィルタリングする他の方法や、下流トレーニングにおけるノイズの多いキャプションデータの影響を具体的に評価する手法は提案されていない。
本研究では,マルチモーダルデータセットにおけるラベルエラーを自動的に識別するLEMoNを提案する。
提案手法は,コントラスト付き事前学習型マルチモーダルモデルの潜在空間における画像キャプチャペアのマルチモーダル近傍を利用する。
提案手法はラベル誤り識別におけるベースラインよりも優れており,本手法を用いてフィルタリングしたデータセットのトレーニングにより,下流分類とキャプション性能が向上することがわかった。
関連論文リスト
- Multi-label Sewer Pipe Defect Recognition with Mask Attention Feature Enhancement and Label Correlation Learning [5.9184143707401775]
マスク注意誘導特徴強調とラベル相関学習に基づくマルチラベルパイプ欠陥認識を提案する。
提案手法は,Swer-MLトレーニングデータセットの1/16のみを用いて,現在の最先端の分類性能を実現する。
論文 参考訳(メタデータ) (2024-08-01T11:51:50Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Semantic similarity metrics for learned image registration [10.355938901584565]
画像登録のための意味的類似度尺度を提案する。
このアプローチは、学習に基づく登録モデルの最適化を促進するデータセット固有の特徴を学習する。
自動エンコーダを用いた非監視的アプローチと、補助セグメンテーションデータを用いた半監督的アプローチの両方をトレーニングし、画像登録のための意味的特徴を抽出します。
論文 参考訳(メタデータ) (2021-04-20T15:23:58Z) - Data-driven Meta-set Based Fine-Grained Visual Classification [61.083706396575295]
本稿では, ノイズの多いWeb画像に対して, 微粒化認識のためのデータ駆動型メタセットベースアプローチを提案する。
具体的には、少量のクリーンなメタセットでガイドされ、メタラーニング方式で選択ネットを訓練し、分布内および分布外ノイズ画像の識別を行う。
論文 参考訳(メタデータ) (2020-08-06T03:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。