論文の概要: An Effective Flow-based Method for Positive-Unlabeled Learning: 2-HNC
- arxiv url: http://arxiv.org/abs/2505.08212v1
- Date: Tue, 13 May 2025 03:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.418275
- Title: An Effective Flow-based Method for Positive-Unlabeled Learning: 2-HNC
- Title(参考訳): ポジティブ・アンラベル学習のための効果的なフローベース手法:2-HNC
- Authors: Dorit Hochbaum, Torpong Nitayanont,
- Abstract要約: バイナリ分類の多くのシナリオでは、トレーニングデータには正のインスタンスのみが提供され、残りのデータはラベル付けされていない。
この設定は、正の未ラベル学習(PU)と呼ばれ、サンプル間のペアの類似性を利用するネットワークフローベースの手法で処理される。
ここで提案する方法である2-HNCは、Hochbaumの正規化カット(HNC)と、パラメトリック最小カット問題を解くことで提供される解の集合を利用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many scenarios of binary classification, only positive instances are provided in the training data, leaving the rest of the data unlabeled. This setup, known as positive-unlabeled (PU) learning, is addressed here with a network flow-based method which utilizes pairwise similarities between samples. The method we propose here, 2-HNC, leverages Hochbaum's Normalized Cut (HNC) and the set of solutions it provides by solving a parametric minimum cut problem. The set of solutions, that are nested partitions of the samples into two sets, correspond to varying tradeoff values between the two goals: high intra-similarity inside the sets and low inter-similarity between the two sets. This nested sequence is utilized here to deliver a ranking of unlabeled samples by their likelihood of being negative. Building on this insight, our method, 2-HNC, proceeds in two stages. The first stage generates this ranking without assuming any negative labels, using a problem formulation that is constrained only on positive labeled samples. The second stage augments the positive set with likely-negative samples and recomputes the classification. The final label prediction selects among all generated partitions in both stages, the one that delivers a positive class proportion, closest to a prior estimate of this quantity, which is assumed to be given. Extensive experiments across synthetic and real datasets show that 2-HNC yields strong performance and often surpasses existing state-of-the-art algorithms.
- Abstract(参考訳): バイナリ分類の多くのシナリオでは、トレーニングデータには正のインスタンスのみが提供され、残りのデータはラベル付けされていない。
この設定は、正の未ラベル学習(PU)と呼ばれ、サンプル間のペアの類似性を利用するネットワークフローベースの手法で処理される。
ここで提案する方法である2-HNCは、Hochbaumの正規化カット(HNC)と、パラメトリック最小カット問題を解くことで提供される解の集合を利用する。
サンプルのネスト分割を2つの集合に分割した解の集合は、セット内の高い相似性と2つの集合間の低い相似性という2つの目標の間のトレードオフ値に対応する。
このネスト配列は、負の確率でラベル付けされていないサンプルのランク付けを行うために用いられる。
この知見に基づいて、2-HNC法は2段階に進む。
第1段階は、正のラベル付きサンプルにのみ拘束される問題定式化を用いて、負のラベルを仮定することなく、このランキングを生成する。
第2段階は正の集合を潜在的に負のサンプルで増補し、分類を再計算する。
最終ラベル予測は、どちらの段階でも生成されるすべてのパーティションの中から選択されるが、これは、与えられたと仮定される、この量の事前推定に最も近い正のクラス比を提供するものである。
合成データセットと実データセットの大規模な実験により、2-HNCは高い性能を示し、しばしば既存の最先端アルゴリズムを上回ります。
関連論文リスト
- Confidence HNC: A Network Flow Technique for Binary Classification with Noisy Labels [0.0]
本稿では,クラスタ内のサンプル間の大きな類似性と,クラスタと補体間の大きな相違性という,2つの目的のバランスをとる分類法について考察する。
HNCまたはSNCと呼ばれるこの方法は、シードノードまたはラベル付きサンプルを必要とし、そのうちの少なくとも1つはクラスタにあり、少なくとも1つは補体である。
ここでの貢献は、信頼HNCと呼ばれるHNCに基づくノイズラベルの存在における新しい方法である。
論文 参考訳(メタデータ) (2025-03-04T07:21:40Z) - CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
セマンティックな一貫性を維持しつつ,サンプル単位のロジットアライメントを実現するコントラッシブな知識蒸留フレームワークを提案する。
提案手法は,教師と教師の対照的アライメントを通じて「暗黒知識」をサンプルレベルで伝達する。
CIFAR-100、ImageNet-1K、MS COCOデータセットを含む3つのベンチマークデータセットの総合的な実験を行う。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Learning with Noisy Labels Using Collaborative Sample Selection and
Contrastive Semi-Supervised Learning [76.00798972439004]
Collaborative Sample Selection (CSS)は、特定されたクリーンセットからノイズの多いサンプルを削除する。
半教師付き学習において、対照的な損失を伴う協調学習機構を導入する。
論文 参考訳(メタデータ) (2023-10-24T05:37:20Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Self-Training of Halfspaces with Generalization Guarantees under Massart
Mislabeling Noise Model [5.4826939033861155]
ハーフスペースを持つ自己学習アルゴリズムの一般化特性について検討する。
このアプローチは、ラベル付きトレーニングデータやラベルなしトレーニングデータから、ハーフスペースのリストを反復的に学習する。
論文 参考訳(メタデータ) (2021-11-29T10:17:04Z) - Mixture Proportion Estimation and PU Learning: A Modern Approach [47.34499672878859]
正の例とラベルなしの例のみを考えると、正逆負の正の正の分類器を正確に見積もることを望むかもしれない。
両方の問題の古典的な方法は、高次元の設定で分解される。
BBE(Best Bin Estimation)とCVIR(Value Ignoring Risk)の2つの簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-11-01T14:42:23Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。