論文の概要: On Characterizing and Mitigating Imbalances in Multi-Instance Partial Label Learning
- arxiv url: http://arxiv.org/abs/2407.10000v2
- Date: Sun, 6 Oct 2024 14:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 21:43:45.224585
- Title: On Characterizing and Mitigating Imbalances in Multi-Instance Partial Label Learning
- Title(参考訳): 多インスタンス部分ラベル学習における不均衡のキャラクタリゼーションと緩和について
- Authors: Kaifu Wang, Efthymia Tsamoura, Dan Roth,
- Abstract要約: 我々は、MI-PLLの文脈において、これまで研究されていない問題に対処するためのコントリビューションを行っている。
最小限の仮定をしながら、クラス固有のMI-PLLのリスク境界を導出する。
我々の理論は、$sigma$が学習の不均衡に大きな影響を及ぼすというユニークな現象を明らかにしている。
- 参考スコア(独自算出の注目度): 57.18649648182171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: *Multi-Instance Partial Label Learning* (MI-PLL) is a weakly-supervised learning setting encompassing *partial label learning*, *latent structural learning*, and *neurosymbolic learning*. Unlike supervised learning, in MI-PLL, the inputs to the classifiers at training-time are tuples of instances $\mathbf{x}$. At the same time, the supervision signal is generated by a function $\sigma$ over the (hidden) gold labels of $\mathbf{x}$. In this work, we make multiple contributions towards addressing a problem that hasn't been studied so far in the context of MI-PLL: that of characterizing and mitigating *learning imbalances*, i.e., major differences in the errors occurring when classifying instances of different classes (aka *class-specific risks*). In terms of theory, we derive class-specific risk bounds for MI-PLL, while making minimal assumptions. Our theory reveals a unique phenomenon: that $\sigma$ can greatly impact learning imbalances. This result is in sharp contrast with previous research on supervised and weakly-supervised learning, which only studies learning imbalances under the prism of data imbalances. On the practical side, we introduce a technique for estimating the marginal of the hidden labels using only MI-PLL data. Then, we introduce algorithms that mitigate imbalances at training- and testing-time, by treating the marginal of the hidden labels as a constraint. We demonstrate the effectiveness of our techniques using strong baselines from neurosymbolic and long-tail learning, suggesting performance improvements of up to 14\%.
- Abstract(参考訳): *Multi-Instance partial Label Learning*(MI-PLL)は、*partial label learning*、*latent structure learning*、*neurosymbolic learning*を含む弱教師付き学習環境である。
MI-PLL では教師付き学習とは異なり、訓練時の分類器への入力は $\mathbf{x}$ のタプルである。
同時に、監督信号は、$\mathbf{x}$の(隠された)ゴールドラベル上の関数$\sigma$によって生成される。
本研究は,これまでのMI-PLLの文脈では研究されていない問題,すなわち,異なるクラス(クラス固有のリスク*)のインスタンスを分類する際に発生するエラーの大きな違いを特徴付け,緩和する問題に,複数のコントリビューションを行う。
理論の観点からは、最小の仮定をしながら、MI-PLLのクラス固有のリスク境界を導出する。
我々の理論は、$\sigma$が学習の不均衡に大きな影響を及ぼすというユニークな現象を明らかにしている。
この結果は、データ不均衡のプリズムの下での不均衡を学ぶことのみを研究する教師付きおよび弱教師付き学習に関する以前の研究と対照的である。
実用面では,MI-PLLデータのみを用いて隠れラベルの限界を推定する手法を提案する。
次に,隠れラベルの限界を制約として扱うことにより,トレーニング時とテスト時の不均衡を軽減するアルゴリズムを導入する。
ニューロシンボリック学習とロングテール学習の強いベースラインを用いた手法の有効性を実証し,最大14\%の性能向上を示唆した。
関連論文リスト
- An Unbiased Risk Estimator for Partial Label Learning with Augmented Classes [46.663081214928226]
PLLACを理論的に保証した非バイアスリスク推定器を提案する。
PLLACの推定誤差の理論的解析を行う。
ベンチマーク、UCI、実世界のデータセットの実験では、提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2024-09-29T07:36:16Z) - On Learning Latent Models with Multi-Instance Weak Supervision [57.18649648182171]
本稿では,複数の入力インスタンスに関連付けられた遷移関数$sigma$ラベルによって,教師信号が生成される弱い教師付き学習シナリオについて考察する。
我々の問題は、潜在的な構造学習やニューロシンボリックな統合など、さまざまな分野で満たされている。
論文 参考訳(メタデータ) (2023-06-23T22:05:08Z) - Towards Understanding Generalization of Macro-AUC in Multi-label
Learning [48.015768048227166]
マクロAUCに基づく各種学習アルゴリズムの一般化特性を特徴付ける。
一般化境界に影響を及ぼすデータセットの臨界因子を同定する。
我々は、独立性を持つかもしれない新しい(そしてより一般的な)マクダイアルミド型濃度不等式を提案する。
論文 参考訳(メタデータ) (2023-05-09T08:13:48Z) - Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact
Supervision [53.530957567507365]
実世界のタスクでは、各トレーニングサンプルは、1つの基底真実ラベルといくつかの偽陽性ラベルを含む候補ラベルセットに関連付けられている。
本稿では,Multi-instance partial-label learning (MIPL) などの問題を定式化する。
既存のマルチインスタンス学習アルゴリズムと部分ラベル学習アルゴリズムはMIPL問題の解法に最適である。
論文 参考訳(メタデータ) (2022-12-18T03:28:51Z) - On Causality in Domain Adaptation and Semi-Supervised Learning: an Information-Theoretic Analysis for Parametric Models [40.97750409326622]
対象領域における予測の学習性能を情報理論の観点から検討する。
因果学習では、ソースとターゲットドメイン間のラベリング分布が変化しない場合のみ、ソースサンプルのサイズに$O(frac1m)$で依存することを示した。
反因果学習では、非競合データが通常$O(frac1n)$の速度で性能を支配していることを示す。
論文 参考訳(メタデータ) (2022-05-10T03:18:48Z) - Learning from Label Proportions by Learning with Label Noise [30.7933303912474]
ラベル比例(LLP)からの学習は、データポイントをバッグに分類する弱い教師付き分類問題である。
ラベル雑音による学習の低減に基づくLLPに対する理論的基礎的なアプローチを提案する。
このアプローチは、複数のデータセットやアーキテクチャにわたるディープラーニングシナリオにおける経験的パフォーマンスの向上を実証する。
論文 参考訳(メタデータ) (2022-03-04T18:52:21Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Active Learning under Label Shift [80.65643075952639]
重要度とクラスバランスサンプリングのトレードオフを取り入れた「メディカル分布」を導入する。
ラベルシフト(MALLS)下でのメディア型アクティブラーニングの複雑さと一般化保証を実証する。
我々は、MALLSスケールを高次元データセットに実証的に示し、深層学習タスクにおいて、アクティブラーニングのサンプル複雑性を60%削減することができる。
論文 参考訳(メタデータ) (2020-07-16T17:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。