論文の概要: Informative missingness and its implications in semi-supervised learning
- arxiv url: http://arxiv.org/abs/2512.04392v1
- Date: Thu, 04 Dec 2025 02:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.960155
- Title: Informative missingness and its implications in semi-supervised learning
- Title(参考訳): 半教師あり学習における情報不足とその意味
- Authors: Jinran Wu, You-Gan Wang, Geoffrey J. McLachlan,
- Abstract要約: 半教師付き学習(SSL)はラベル付きデータと非ラベル付きデータの両方を用いて分類器を構成する。
これは、有限混合モデルに対する可能性フレームワーク内で統計的に定式化できる不完全データ問題を定義する。
このような情報不足をモデル化することは、実証的なSSLメソッドの振る舞いと可能性に基づく推論を統一するコヒーレントな統計フレームワークを提供する。
- 参考スコア(独自算出の注目度): 2.5794915063815664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-supervised learning (SSL) constructs classifiers using both labelled and unlabelled data. It leverages information from labelled samples, whose acquisition is often costly or labour-intensive, together with unlabelled data to enhance prediction performance. This defines an incomplete-data problem, which statistically can be formulated within the likelihood framework for finite mixture models that can be fitted using the expectation-maximisation (EM) algorithm. Ideally, one would prefer a completely labelled sample, as one would anticipate that a labelled observation provides more information than an unlabelled one. However, when the mechanism governing label absence depends on the observed features or the class labels or both, the missingness indicators themselves contain useful information. In certain situations, the information gained from modelling the missing-label mechanism can even outweigh the loss due to missing labels, yielding a classifier with a smaller expected error than one based on a completely labelled sample analysed. This improvement arises particularly when class overlap is moderate, labelled data are sparse, and the missingness is informative. Modelling such informative missingness thus offers a coherent statistical framework that unifies likelihood-based inference with the behaviour of empirical SSL methods.
- Abstract(参考訳): 半教師付き学習(SSL)はラベル付きデータと非ラベル付きデータの両方を用いて分類器を構成する。
ラベル付きサンプルからの情報を活用し、その取得はしばしばコストがかかるか労働集約的であり、予測性能を高めるためにラベル付きデータも活用する。
これは、期待最大化(EM)アルゴリズムを用いて適用可能な有限混合モデルの確率的枠組み内で統計的に定式化できる不完全データ問題を定義する。
理想的には、ラベル付けされた観察は、ラベル付けされていないものよりも多くの情報を提供すると予測されるため、完全にラベル付けされたサンプルを好む。
しかし、ラベルの欠如を規定するメカニズムが観察された特徴やクラスラベル、あるいはその両方に依存する場合、不足指標自体が有用な情報を含んでいる。
ある状況では、欠落ラベル機構のモデル化から得られる情報は、欠落ラベルによる損失よりも優れており、完全にラベル付けされたサンプル分析に基づいて、予測誤差の小さい分類器が得られる。
この改善は、特にクラスオーバーラップが適度で、ラベル付きデータがスパースで、不足が情報的である場合に発生する。
このような情報不足をモデル化することは、実証的なSSLメソッドの振る舞いと可能性に基づく推論を統一するコヒーレントな統計フレームワークを提供する。
関連論文リスト
- SSLfmm: An R Package for Semi-Supervised Learning with a Mixed-Missingness Mechanism in Finite Mixture Models [2.0253523660913664]
半教師付き学習(SSL)は、観測のサブセットのみをラベル付けしたデータセットから分類器を構築する。
観察が損なわれない可能性は、その特徴ベクトルのあいまいさに依存する可能性があるため、不足過程は有益なものとなる。
このパッケージにはモデリングの実用的なツールが含まれており、シミュレートされた例を通してそのパフォーマンスを説明している。
論文 参考訳(メタデータ) (2025-12-03T00:14:33Z) - Some Robustness Properties of Label Cleaning [6.215814187185031]
集約ラベルに依存した学習手順は, データのクリーニングを伴わずに, 堅牢性を享受できることが示唆された。
データ分析パイプラインの完全なビューを組み込むことで、ノイズの多い信号を精査することで、より堅牢な方法論を実現する方法について強調する。
論文 参考訳(メタデータ) (2025-09-14T18:17:51Z) - Generalized Semi-Supervised Learning via Self-Supervised Feature Adaptation [87.17768598044427]
従来の半教師付き学習は、ラベル付きデータとラベルなしデータの特徴分布が一貫したものであると仮定する。
本稿では,ラベル付きおよびラベルなしデータの分散によるSSL性能向上のための汎用フレームワークであるセルフ・スーパービジョン・フィーチャー・アダプテーション(SSFA)を提案する。
提案するSSFAは擬似ラベルベースのSSL学習者に適用可能であり,ラベル付き,ラベルなし,さらには目に見えない分布における性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-31T03:13:45Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism [4.675583319625962]
半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。
これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。
本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T09:18:46Z) - Rethinking Precision of Pseudo Label: Test-Time Adaptation via
Complementary Learning [10.396596055773012]
本稿では,テスト時間適応性を高めるための新しい補完学習手法を提案する。
テスト時適応タスクでは、ソースドメインからの情報は通常利用できない。
我々は,相補ラベルのリスク関数がバニラ損失式と一致することを強調した。
論文 参考訳(メタデータ) (2023-01-15T03:36:33Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - How Does Pseudo-Labeling Affect the Generalization Error of the
Semi-Supervised Gibbs Algorithm? [73.80001705134147]
擬似ラベル付き半教師付き学習(SSL)におけるGibsアルゴリズムによる予測一般化誤差(ゲンエラー)を正確に評価する。
ゲンエラーは、出力仮説、擬ラベルデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
論文 参考訳(メタデータ) (2022-10-15T04:11:56Z) - Complementing Semi-Supervised Learning with Uncertainty Quantification [6.612035830987296]
そこで本研究では,アレータ性およびてんかん性不確実性定量化に依存する,教師なし不確実性認識の新たな目的を提案する。
CIFAR-100やMini-ImageNetのような複雑なデータセットでは,結果が最先端の成果よりも優れています。
論文 参考訳(メタデータ) (2022-07-22T00:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。