論文の概要: CLCIFAR: CIFAR-Derived Benchmark Datasets with Human Annotated
Complementary Labels
- arxiv url: http://arxiv.org/abs/2305.08295v2
- Date: Fri, 16 Jun 2023 05:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 17:16:19.387857
- Title: CLCIFAR: CIFAR-Derived Benchmark Datasets with Human Annotated
Complementary Labels
- Title(参考訳): CLCIFAR: 注釈付き補完ラベルを用いたCIFAR-Derivedベンチマークデータセット
- Authors: Hsiu-Hsuan Wang, Wei-I Lin, Hsuan-Tien Lin
- Abstract要約: 我々は,人間のアノテーションによって注釈付けされた補完ラベルを収集するプロトコルを開発した。
これにより、CLCIFAR10とCLCIFAR20という2つのデータセットが作成された。
合成データセットから実世界のデータセットへ移行する際の顕著な性能低下を発見した。
ヒトの注釈付き補完ラベルのバイアス特性は、特定のCLLアルゴリズムが過度に適合しやすいことを見出した。
- 参考スコア(独自算出の注目度): 13.404403192353326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complementary-label learning (CLL) is a weakly-supervised learning paradigm
that aims to train a multi-class classifier using only complementary labels,
which indicate classes to which an instance does not belong. Despite numerous
algorithmic proposals for CLL, their practical performance remains unclear for
two reasons. Firstly, these algorithms often rely on assumptions about the
generation of complementary labels. Secondly, their evaluation has been limited
to synthetic datasets. To gain insights into the real-world performance of CLL
algorithms, we developed a protocol to collect complementary labels annotated
by human annotators. This effort resulted in the creation of two datasets,
CLCIFAR10 and CLCIFAR20, derived from CIFAR10 and CIFAR100, respectively. These
datasets, publicly released at https://github.com/ntucllab/complementary_cifar,
represent the very first real-world CLL datasets. Through extensive benchmark
experiments, we discovered a notable decline in performance when transitioning
from synthetic datasets to real-world datasets. We conducted a dataset-level
ablation study to investigate the key factors contributing to this decline. Our
analyses highlighted annotation noise as the most influential factor present in
the real-world datasets. Additionally, the biased nature of human-annotated
complementary labels was found to make certain CLL algorithms more susceptible
to overfitting. These findings suggest the community to spend more research
effort on developing CLL algorithms that are robust to noisy and biased
complementary-label distributions.
- Abstract(参考訳): complement-label learning (cll) は弱教師付き学習パラダイムであり、インスタンスが属さないクラスを示す補完ラベルのみを使用して、マルチクラス分類器をトレーニングすることを目的としている。
多くのアルゴリズムによるCLLの提案にもかかわらず、その実用性能は2つの理由により不明である。
まず、これらのアルゴリズムは補足ラベルの生成に関する仮定に依存することが多い。
第二に、それらの評価は合成データセットに限られている。
CLLアルゴリズムの実際の性能に関する知見を得るため,人間のアノテーションによって注釈付けされた補完ラベルを収集するプロトコルを開発した。
この試みにより、それぞれCIFAR10とCIFAR100から派生したCLCIFAR10とCLCIFAR20という2つのデータセットが作成された。
これらのデータセットはhttps://github.com/ntucllab/complementary_cifarで公開されている。
広範なベンチマーク実験を通じて,合成データセットから実世界のデータセットへの移行時のパフォーマンスが著しく低下していることが分かりました。
我々は,この減少に寄与する要因について,データセットレベルのアブレーション調査を行った。
実世界のデータセットに最も影響を及ぼす要因はアノテーションノイズであった。
さらに、人間の注釈付き補完ラベルのバイアス特性は、特定のCLLアルゴリズムが過度に適合しやすいことを見出した。
これらの結果から,CLLアルゴリズムの開発により多くの研究努力を費やすことが示唆された。
関連論文リスト
- libcll: an Extendable Python Toolkit for Complementary-Label Learning [8.335164415521838]
補完ラベル学習(Complementary-label Learning, CLL)は、多クラス分類のための弱い教師付き学習パラダイムである。
textttlibcllはCLL研究用のPythonツールキットである。
textttlibcllは、幅広い世代の仮定をサポートする普遍的なインターフェースを提供する。
論文 参考訳(メタデータ) (2024-11-19T06:56:24Z) - Enhancing Label Sharing Efficiency in Complementary-Label Learning with
Label Augmentation [92.4959898591397]
学習中に近隣の事例における補完ラベルの暗黙的な共有を分析した。
相補的なラベル拡張による共有効率を向上させる新しい手法を提案する。
実験結果から,従来のCLLモデルよりも相補的ラベル拡張により経験的性能が向上することが確認された。
論文 参考訳(メタデータ) (2023-05-15T04:43:14Z) - Complementary Labels Learning with Augmented Classes [22.460256396941528]
補完ラベル学習 (Complementary Labels Learning, CLL) は、プライベート質問分類やオンライン学習など、現実世界の多くのタスクに現れる。
CLLAC(Complementary Labels Learning with Augmented Classs)と呼ばれる新しい問題設定を提案する。
ラベルのないデータを用いて,CLLACの分類リスクの偏りのない推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T13:55:27Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文 参考訳(メタデータ) (2022-01-17T09:09:09Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。