論文の概要: Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation
- arxiv url: http://arxiv.org/abs/2603.05729v1
- Date: Thu, 05 Mar 2026 22:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.679681
- Title: Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation
- Title(参考訳): ImageNetのマルチオブジェクト特性をアンロックする:大規模マルチラベルアノテーションの自動生成
- Authors: Junyu Chen, Md Yousuf Harun, Christopher Kanan,
- Abstract要約: 人間のアノテーションを使わずに、ImageNetトレーニングセットをマルチラベルデータセットに変換する自動パイプラインを提案する。
我々のラベルは質的評価において人間の判断と強く一致している。
従来のシングルラベル方式と比較して、マルチラベル監視で訓練されたモデルは、ドメイン内精度を一貫して向上させる。
- 参考スコア(独自算出の注目度): 22.555839995810988
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The original ImageNet benchmark enforces a single-label assumption, despite many images depicting multiple objects. This leads to label noise and limits the richness of the learning signal. Multi-label annotations more accurately reflect real-world visual scenes, where multiple objects co-occur and contribute to semantic understanding, enabling models to learn richer and more robust representations. While prior efforts (e.g., ReaL, ImageNetv2) have improved the validation set, there has not yet been a scalable, high-quality multi-label annotation for the training set. To this end, we present an automated pipeline to convert the ImageNet training set into a multi-label dataset, without human annotations. Using self-supervised Vision Transformers, we perform unsupervised object discovery, select regions aligned with original labels to train a lightweight classifier, and apply it to all regions to generate coherent multi-label annotations across the dataset. Our labels show strong alignment with human judgment in qualitative evaluations and consistently improve performance across quantitative benchmarks. Compared to traditional single-label scheme, models trained with our multi-label supervision achieve consistently better in-domain accuracy across architectures (up to +2.0 top-1 accuracy on ReaL and +1.5 on ImageNet-V2) and exhibit stronger transferability to downstream tasks (up to +4.2 and +2.3 mAP on COCO and VOC, respectively). These results underscore the importance of accurate multi-label annotations for enhancing both classification performance and representation learning. Project code and the generated multi-label annotations are available at https://github.com/jchen175/MultiLabel-ImageNet.
- Abstract(参考訳): オリジナルのImageNetベンチマークは、複数のオブジェクトを描いた多くの画像にもかかわらず、シングルラベルの仮定を強制している。
これによりラベルノイズが発生し、学習信号の豊かさが制限される。
マルチラベルアノテーションは、複数のオブジェクトが共起し、セマンティックな理解に寄与し、モデルがよりリッチで堅牢な表現を学習できるようにする、現実世界の視覚シーンをより正確に反映する。
以前の取り組み(例えば、ReaL、ImageNetv2)は検証セットを改善したが、トレーニングセットに対するスケーラブルで高品質なマルチラベルアノテーションはまだ存在していない。
この目的のために、ImageNetトレーニングセットをヒューマンアノテーションなしでマルチラベルデータセットに変換する自動パイプラインを提案する。
自己教師付き視覚変換器を用いて、教師なしのオブジェクト発見を行い、オリジナルラベルと整列した領域を選択して軽量な分類器を訓練し、それをすべてのリージョンに適用してデータセット全体にわたる一貫性のあるマルチラベルアノテーションを生成する。
我々のラベルは質的評価において人間の判断と強い整合性を示し、定量的ベンチマークにおける性能を一貫して改善する。
従来のシングルラベル方式と比較して、我々のマルチラベル監視で訓練されたモデルは、アーキテクチャ全体にわたって一貫してドメイン内精度を向上し(ReaLでは+2.0トップ-1、ImageNet-V2では+1.5まで)、下流タスク(COCOでは+4.2、VOCでは+2.3 mAPまで)への転送性が向上した。
これらの結果は,分類性能と表現学習の両面において,正確なマルチラベルアノテーションの重要性を浮き彫りにしている。
プロジェクトコードと生成されたマルチラベルアノテーションはhttps://github.com/jchen175/MultiLabel-ImageNet.comで公開されている。
関連論文リスト
- The Impact of the Single-Label Assumption in Image Recognition Benchmarking [1.4828022319975973]
ディープニューラルネットワーク(DNN)は通常、各画像が単一の正しいラベルを持つという仮定の下で評価される。
ImageNetのようなベンチマークの多くの画像には、複数の有効なラベルが含まれており、評価プロトコルと実際の視覚データの複雑さのミスマッチを生成する。
報告された精度ギャップに対するマルチラベル特性の影響を厳格に評価する。
論文 参考訳(メタデータ) (2024-12-24T12:55:31Z) - Vision-Language Pseudo-Labels for Single-Positive Multi-Label Learning [11.489541220229798]
一般的なマルチラベル学習では、モデルは単一の入力画像に対して複数のラベルやカテゴリを予測することを学習する。
これは、タスクがイメージの多くの可能なラベルから単一のラベルを予測している、標準的なマルチクラスイメージ分類とは対照的である。
論文 参考訳(メタデータ) (2023-10-24T16:36:51Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited
Annotations [61.41339201200135]
本稿では,部分ラベル MLR とゼロショット MLR の統一フレームワークとして,Dual Context Optimization (DualCoOp) を提案する。
DualCoOpは、事前訓練された視覚言語フレームワークに非常に軽い学習可能なオーバーヘッドしか導入しないため、マルチラベル認識タスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-06-20T02:36:54Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-22T14:38:40Z) - Multi-label Iterated Learning for Image Classification with Label
Ambiguity [3.5736176624479654]
単一ラベルからの多ラベル学習の帰納バイアスを組み込むために,多ラベル反復学習(MILe)を提案する。
MILeは、バイナリ予測を伝搬することにより、画像のマルチラベル記述を構築する、シンプルだが効果的な手順である。
我々は,MILeがラベルノイズを効果的に低減し,WebVisionのような実世界の大規模ノイズデータに対して最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-11-23T22:10:00Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Re-labeling ImageNet: from Single to Multi-Labels, from Global to
Localized Labels [34.13899937264952]
ImageNetは間違いなく最も人気のある画像分類ベンチマークですが、ラベルノイズのかなりのレベルを持つものでもあります。
近年の研究では、シングルラベルベンチマークと仮定されているにもかかわらず、多くのサンプルが複数のクラスを含んでいることが示されている。
私たちは、単一ラベルアノテーションと効果的に複数のラベル画像の間のミスマッチは、ランダムな作物が適用されるトレーニングセットアップにおいて同様に問題であると主張しています。
論文 参考訳(メタデータ) (2021-01-13T11:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。