論文の概要: CLImage: Human-Annotated Datasets for Complementary-Label Learning
- arxiv url: http://arxiv.org/abs/2305.08295v3
- Date: Sat, 22 Jun 2024 08:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 05:18:24.621541
- Title: CLImage: Human-Annotated Datasets for Complementary-Label Learning
- Title(参考訳): CLImage: 補完的なラベル学習のための人間アノテーションデータセット
- Authors: Hsiu-Hsuan Wang, Tan-Ha Mai, Nai-Xuan Ye, Wei-I Lin, Hsuan-Tien Lin,
- Abstract要約: 我々は,人間のアノテーションから補完ラベルを収集するプロトコルを開発した。
これらのデータセットは、最初の現実世界のCLLデータセットを表している。
我々は,人間の注釈付き補完ラベルの偏りと,補完ラベルのみによる検証の難しさが,実用的CLLの障壁となることを発見した。
- 参考スコア(独自算出の注目度): 8.335164415521838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complementary-label learning (CLL) is a weakly-supervised learning paradigm that aims to train a multi-class classifier using only complementary labels, which indicate classes to which an instance does not belong. Despite numerous algorithmic proposals for CLL, their practical applicability remains unverified for two reasons. Firstly, these algorithms often rely on assumptions about the generation of complementary labels, and it is not clear how far the assumptions are from reality. Secondly, their evaluation has been limited to synthetic datasets. To gain insights into the real-world performance of CLL algorithms, we developed a protocol to collect complementary labels from human annotators. Our efforts resulted in the creation of four datasets: CLCIFAR10, CLCIFAR20, CLMicroImageNet10, and CLMicroImageNet20, derived from well-known classification datasets CIFAR10, CIFAR100, and TinyImageNet200. These datasets represent the very first real-world CLL datasets. Through extensive benchmark experiments, we discovered a notable decrease in performance when transitioning from synthetic datasets to real-world datasets. We investigated the key factors contributing to the decrease with a thorough dataset-level ablation study. Our analyses highlight annotation noise as the most influential factor in the real-world datasets. In addition, we discover that the biased-nature of human-annotated complementary labels and the difficulty to validate with only complementary labels are two outstanding barriers to practical CLL. These findings suggest that the community focus more research efforts on developing CLL algorithms and validation schemes that are robust to noisy and biased complementary-label distributions.
- Abstract(参考訳): 補完ラベル学習(英:complementary-label learning, CLL)は、補完ラベルのみを用いて多クラス分類器を訓練することを目的とした、弱い教師付き学習パラダイムである。
多くのアルゴリズムによるCLLの提案にもかかわらず、その実用性は2つの理由により検証されていない。
第一に、これらのアルゴリズムはしばしば相補的なラベルの生成に関する仮定に依存しており、仮定が現実からどこまで遠いかは定かではない。
第二に、それらの評価は合成データセットに限られている。
CLLアルゴリズムの実際の性能に関する知見を得るため,人間のアノテータから補完ラベルを収集するプロトコルを開発した。
CLCIFAR10, CLCIFAR20, CLMicroImageNet10, CLMicroImageNet20の4つのデータセットを作成した。
これらのデータセットは、最初の現実世界のCLLデータセットを表している。
大規模なベンチマーク実験により、合成データセットから実世界のデータセットに移行する際の顕著な性能低下が判明した。
本研究は, データセットレベルのアブレーション研究により, 減少に寄与する重要な要因について検討した。
本分析では, 実世界のデータセットにおいて, アノテーションノイズが最も影響のある要因として強調する。
さらに,人間の注釈付き補完ラベルの偏りと,補完ラベルのみによる検証の難しさが,実用的CLLの2つの際立った障壁であることが判明した。
これらの結果から,CLLアルゴリズムの開発や,雑音に頑健で相補的ラベル分布に偏った検証手法の開発に,コミュニティがより多くの研究を注いでいることが示唆された。
関連論文リスト
- libcll: an Extendable Python Toolkit for Complementary-Label Learning [8.335164415521838]
補完ラベル学習(Complementary-label Learning, CLL)は、多クラス分類のための弱い教師付き学習パラダイムである。
textttlibcllはCLL研究用のPythonツールキットである。
textttlibcllは、幅広い世代の仮定をサポートする普遍的なインターフェースを提供する。
論文 参考訳(メタデータ) (2024-11-19T06:56:24Z) - Enhancing Label Sharing Efficiency in Complementary-Label Learning with
Label Augmentation [92.4959898591397]
学習中に近隣の事例における補完ラベルの暗黙的な共有を分析した。
相補的なラベル拡張による共有効率を向上させる新しい手法を提案する。
実験結果から,従来のCLLモデルよりも相補的ラベル拡張により経験的性能が向上することが確認された。
論文 参考訳(メタデータ) (2023-05-15T04:43:14Z) - Complementary Labels Learning with Augmented Classes [22.460256396941528]
補完ラベル学習 (Complementary Labels Learning, CLL) は、プライベート質問分類やオンライン学習など、現実世界の多くのタスクに現れる。
CLLAC(Complementary Labels Learning with Augmented Classs)と呼ばれる新しい問題設定を提案する。
ラベルのないデータを用いて,CLLACの分類リスクの偏りのない推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T13:55:27Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文 参考訳(メタデータ) (2022-01-17T09:09:09Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。