論文の概要: On Characterizing and Mitigating Imbalances in Multi-Instance Partial Label Learning
- arxiv url: http://arxiv.org/abs/2407.10000v1
- Date: Sat, 13 Jul 2024 20:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:58:18.365722
- Title: On Characterizing and Mitigating Imbalances in Multi-Instance Partial Label Learning
- Title(参考訳): 多インスタンス部分ラベル学習における不均衡のキャラクタリゼーションと緩和について
- Authors: Kaifu Wang, Efthymia Tsamoura, Dan Roth,
- Abstract要約: マルチインスタンス部分ラベル学習(MI-PLL)は、弱い教師付き学習環境である。
筆者らはMI-PLL下での学習不均衡の特徴付けと緩和に重点を置いている。
- 参考スコア(独自算出の注目度): 57.18649648182171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Instance Partial Label Learning (MI-PLL) is a weakly-supervised learning setting encompassing partial label learning, latent structural learning, and neurosymbolic learning. Differently from supervised learning, in MI-PLL, the inputs to the classifiers at training-time are tuples of instances $\textbf{x}$, while the supervision signal is generated by a function $\sigma$ over the gold labels of $\textbf{x}$. The gold labels are hidden during training. In this paper, we focus on characterizing and mitigating learning imbalances, i.e., differences in the errors occurring when classifying instances of different classes (aka class-specific risks), under MI-PLL. The phenomenon of learning imbalances has been extensively studied in the context of long-tail learning; however, the nature of MI-PLL introduces new challenges. Our contributions are as follows. From a theoretical perspective, we characterize the learning imbalances by deriving class-specific risk bounds that depend upon the function $\sigma$. Our theory reveals that learning imbalances exist in MI-PLL even when the hidden labels are uniformly distributed. On the practical side, we introduce a technique for estimating the marginal of the hidden labels using only MI-PLL data. Then, we introduce algorithms that mitigate imbalances at training- and testing-time, by treating the marginal of the hidden labels as a constraint. The first algorithm relies on a novel linear programming formulation of MI-PLL for pseudo-labeling. The second one adjusts a model's scores based on robust optimal transport. We demonstrate the effectiveness of our techniques using strong neurosymbolic and long-tail learning baselines, discussing also open challenges.
- Abstract(参考訳): マルチインスタンス部分ラベル学習(MI-PLL)は、部分ラベル学習、潜在構造学習、ニューロシンボリック学習を含む弱い教師付き学習環境である。
MI-PLL では、教師あり学習とは違い、訓練時の分類器への入力は、例 $\textbf{x}$ のタプルであり、監督信号は、金ラベル $\textbf{x}$ の関数 $\sigma$ によって生成される。
金のラベルはトレーニング中に隠されています。
本稿では,MI-PLLの下で異なるクラス(クラス固有のリスク)のインスタンスを分類する際に発生するエラーの相違を,学習の不均衡を特徴づけ,緩和することに焦点を当てる。
学習の不均衡現象は,長期学習の文脈で広く研究されてきたが,MI-PLLの性質は新たな課題をもたらす。
私たちの貢献は以下の通りです。
理論的観点からは、関数 $\sigma$ に依存するクラス固有のリスク境界を導出することにより、学習の不均衡を特徴づける。
隠れラベルが均一に分散されている場合でも,MI-PLLには学習の不均衡が存在することが示唆された。
実用面では,MI-PLLデータのみを用いて隠れラベルの限界を推定する手法を提案する。
次に,隠れラベルの限界を制約として扱うことにより,トレーニング時とテスト時の不均衡を軽減するアルゴリズムを導入する。
最初のアルゴリズムは、擬似ラベル付けのためのMI-PLLの新しい線形プログラミング定式化に依存している。
2つ目は、ロバストな最適輸送に基づいてモデルのスコアを調整する。
我々は,強力なニューロシンボリックとロングテール学習ベースラインを用いた手法の有効性を実証し,オープン課題についても論じる。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - An Unbiased Risk Estimator for Partial Label Learning with Augmented Classes [46.663081214928226]
PLLACを理論的に保証した非バイアスリスク推定器を提案する。
PLLACの推定誤差の理論的解析を行う。
ベンチマーク、UCI、実世界のデータセットの実験では、提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2024-09-29T07:36:16Z) - On Learning Latent Models with Multi-Instance Weak Supervision [57.18649648182171]
本稿では,複数の入力インスタンスに関連付けられた遷移関数$sigma$ラベルによって,教師信号が生成される弱い教師付き学習シナリオについて考察する。
我々の問題は、潜在的な構造学習やニューロシンボリックな統合など、さまざまな分野で満たされている。
論文 参考訳(メタデータ) (2023-06-23T22:05:08Z) - Towards Understanding Generalization of Macro-AUC in Multi-label
Learning [48.015768048227166]
マクロAUCに基づく各種学習アルゴリズムの一般化特性を特徴付ける。
一般化境界に影響を及ぼすデータセットの臨界因子を同定する。
我々は、独立性を持つかもしれない新しい(そしてより一般的な)マクダイアルミド型濃度不等式を提案する。
論文 参考訳(メタデータ) (2023-05-09T08:13:48Z) - On Causality in Domain Adaptation and Semi-Supervised Learning: an Information-Theoretic Analysis for Parametric Models [40.97750409326622]
対象領域における予測の学習性能を情報理論の観点から検討する。
因果学習では、ソースとターゲットドメイン間のラベリング分布が変化しない場合のみ、ソースサンプルのサイズに$O(frac1m)$で依存することを示した。
反因果学習では、非競合データが通常$O(frac1n)$の速度で性能を支配していることを示す。
論文 参考訳(メタデータ) (2022-05-10T03:18:48Z) - Learning from Label Proportions by Learning with Label Noise [30.7933303912474]
ラベル比例(LLP)からの学習は、データポイントをバッグに分類する弱い教師付き分類問題である。
ラベル雑音による学習の低減に基づくLLPに対する理論的基礎的なアプローチを提案する。
このアプローチは、複数のデータセットやアーキテクチャにわたるディープラーニングシナリオにおける経験的パフォーマンスの向上を実証する。
論文 参考訳(メタデータ) (2022-03-04T18:52:21Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Active Learning under Label Shift [80.65643075952639]
重要度とクラスバランスサンプリングのトレードオフを取り入れた「メディカル分布」を導入する。
ラベルシフト(MALLS)下でのメディア型アクティブラーニングの複雑さと一般化保証を実証する。
我々は、MALLSスケールを高次元データセットに実証的に示し、深層学習タスクにおいて、アクティブラーニングのサンプル複雑性を60%削減することができる。
論文 参考訳(メタデータ) (2020-07-16T17:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。