論文の概要: Learning from Ambiguous Data with Hard Labels
- arxiv url: http://arxiv.org/abs/2501.01844v2
- Date: Wed, 08 Jan 2025 14:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 11:35:13.967717
- Title: Learning from Ambiguous Data with Hard Labels
- Title(参考訳): 硬いラベルで曖昧なデータから学ぶ
- Authors: Zeke Xie, Zheng He, Nan Lu, Lichen Bai, Bao Li, Shuo Yang, Mingming Sun, Ping Li,
- Abstract要約: 現実世界のデータには、共通のシングル・ハード・ラベル・アノテーションのパラダイムが無視する固有の曖昧さがしばしば含まれている。
硬いラベルを持つあいまいなデータを用いた標準的なトレーニングは、過度に自信過剰なモデルを生み出し、その結果、一般化が不十分になる可能性がある。
我々はこの問題を軽減するために、Quantized Label Learning(QLL)と呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.06499138206804
- License:
- Abstract: Real-world data often contains intrinsic ambiguity that the common single-hard-label annotation paradigm ignores. Standard training using ambiguous data with these hard labels may produce overly confident models and thus leading to poor generalization. In this paper, we propose a novel framework called Quantized Label Learning (QLL) to alleviate this issue. First, we formulate QLL as learning from (very) ambiguous data with hard labels: ideally, each ambiguous instance should be associated with a ground-truth soft-label distribution describing its corresponding probabilistic weight in each class, however, this is usually not accessible; in practice, we can only observe a quantized label, i.e., a hard label sampled (quantized) from the corresponding ground-truth soft-label distribution, of each instance, which can be seen as a biased approximation of the ground-truth soft-label. Second, we propose a Class-wise Positive-Unlabeled (CPU) risk estimator that allows us to train accurate classifiers from only ambiguous data with quantized labels. Third, to simulate ambiguous datasets with quantized labels in the real world, we design a mixing-based ambiguous data generation procedure for empirical evaluation. Experiments demonstrate that our CPU method can significantly improve model generalization performance and outperform the baselines.
- Abstract(参考訳): 現実世界のデータには、共通のシングル・ハード・ラベル・アノテーションのパラダイムが無視する固有の曖昧さがしばしば含まれている。
これらのハードラベルを用いた曖昧なデータを用いた標準トレーニングは、過度に自信過剰なモデルを生成し、その結果、一般化が不十分になる可能性がある。
本稿では,この問題を緩和する新しいフレームワークであるQuantized Label Learning(QLL)を提案する。
まず、QLLをハードラベルを用いた(非常に)曖昧なデータから学習として定式化する: 理想的には、各不明瞭なインスタンスは、それぞれのクラスで対応する確率的重みを記述した基底トラルトなソフトラベル分布に関連付けるべきであるが、通常はこれはアクセスできない; 実際には、各インスタンスの対応する基底トラルトなソフトラベル分布からサンプリングされたハードラベル(量子化)を観測することは、各インスタンスの基底トラルトなソフトラベル分布からのみ可能である。
第2に、量子化ラベルを用いた不明瞭なデータのみから正確な分類器を訓練できるクラスワイズ・アンラベル(CPU)リスク推定器を提案する。
第3に、実世界の量子化されたラベルであいまいなデータセットをシミュレートするために、実験的な評価のための混合ベースのあいまいなデータ生成手順を設計する。
実験により,我々のCPU手法はモデル一般化性能を大幅に向上し,ベースラインを上回り得ることが示された。
関連論文リスト
- Label Distribution Learning with Biased Annotations by Learning Multi-Label Representation [120.97262070068224]
マルチラベル学習(MLL)は,実世界のデータ表現能力に注目されている。
ラベル分布学習(LDL)は正確なラベル分布の収集において課題に直面している。
論文 参考訳(メタデータ) (2025-02-03T09:04:03Z) - Learning with Confidence: Training Better Classifiers from Soft Labels [0.0]
教師付き機械学習では、モデルは通常、ハードラベルを持つデータ、すなわちクラスメンバーシップの明確な割り当てを用いて訓練される。
クラスラベル上の離散確率分布として表されるラベルの不確実性を組み込むことで,分類モデルの予測性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-24T13:12:29Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - How many labelers do you have? A closer look at gold-standard labels [10.637125300701795]
我々は、非集約ラベル情報へのアクセスによって、ゴールドスタンダードラベルよりも、トレーニングの適格化がより実現可能であることを示す。
我々は,非アグリゲートラベルが学習性能を改善することを含む,実世界のデータセットの予測を行う。
論文 参考訳(メタデータ) (2022-06-24T02:33:50Z) - Acknowledging the Unknown for Multi-label Learning with Single Positive
Labels [65.5889334964149]
伝統的に、全ての無注釈ラベルは、単一正のマルチラベル学習(SPML)において負のラベルとして仮定される。
本研究では, 予測確率のエントロピーを最大化するエントロピー最大化(EM)損失を提案する。
非通知ラベルの正負ラベル不均衡を考慮し、非対称耐性戦略とより精密な監視を行うセルフペースト手順を備えた非対称擬似ラベル(APL)を提案する。
論文 参考訳(メタデータ) (2022-03-30T11:43:59Z) - Instance-Dependent Partial Label Learning [69.49681837908511]
部分ラベル学習は、典型的には弱教師付き学習問題である。
既存のほとんどのアプローチでは、トレーニングサンプルの間違ったラベルがランダムに候補ラベルとして選択されていると仮定している。
本稿では,各例が実数で構成された潜在ラベル分布と関連していると仮定する。
論文 参考訳(メタデータ) (2021-10-25T12:50:26Z) - Label Confusion Learning to Enhance Text Classification Models [3.0251266104313643]
ラベル混乱モデル(lcm)はラベル間の意味的重複を捉えるためにラベル混乱を学習する。
lcmは、元のホットラベルベクトルを置き換えるより優れたラベル分布を生成することができる。
5つのテキスト分類ベンチマークデータセットの実験により、広く使われているディープラーニング分類モデルに対するLCMの有効性が明らかにされた。
論文 参考訳(メタデータ) (2020-12-09T11:34:35Z) - Debiased Contrastive Learning [64.98602526764599]
我々は,同ラベルデータポイントのサンプリングを補正する,偏りのあるコントラスト目的の開発を行う。
実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。
論文 参考訳(メタデータ) (2020-07-01T04:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。