論文の概要: Feature selection based on cluster assumption in PU learning
- arxiv url: http://arxiv.org/abs/2504.12651v1
- Date: Thu, 17 Apr 2025 05:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:17.759297
- Title: Feature selection based on cluster assumption in PU learning
- Title(参考訳): PU学習におけるクラスタ仮定に基づく特徴選択
- Authors: Motonobu Uchikoshi, Youhei Akimoto,
- Abstract要約: 特定の実世界の学習タスクでは、適切な特徴選択の対象となるデータは、しばしば正のラベルが集中したクラスタを形成する。
本稿では,FSCPU と呼ばれる PU 学習におけるクラスタ仮定に基づく特徴選択手法を提案する。
合成データセットの実験は、様々なデータ条件におけるFSCPUの有効性を示す。
- 参考スコア(独自算出の注目度): 5.827133967000089
- License:
- Abstract: Feature selection is essential for efficient data mining and sometimes encounters the positive-unlabeled (PU) learning scenario, where only a few positive labels are available, while most data remains unlabeled. In certain real-world PU learning tasks, data subjected to adequate feature selection often form clusters with concentrated positive labels. Conventional feature selection methods that treat unlabeled data as negative may fail to capture the statistical characteristics of positive data in such scenarios, leading to suboptimal performance. To address this, we propose a novel feature selection method based on the cluster assumption in PU learning, called FSCPU. FSCPU formulates the feature selection problem as a binary optimization task, with an objective function explicitly designed to incorporate the cluster assumption in the PU learning setting. Experiments on synthetic datasets demonstrate the effectiveness of FSCPU across various data conditions. Moreover, comparisons with 10 conventional algorithms on three open datasets show that FSCPU achieves competitive performance in downstream classification tasks, even when the cluster assumption does not strictly hold.
- Abstract(参考訳): 効率的なデータマイニングには特徴選択が不可欠であり、いくつかの正のラベルしか利用できないが、ほとんどのデータは未ラベルのままである、正のラベル付き(PU)学習シナリオに遭遇することもある。
ある現実世界のPU学習タスクでは、適切な特徴選択の対象となるデータは、しばしば正のラベルが集中したクラスタを形成する。
ラベルなしデータを負として扱う従来の特徴選択法は、そのようなシナリオにおける正のデータの統計的特性を捉えるのに失敗し、準最適性能をもたらす。
そこで本研究では,FSCPUと呼ばれるPU学習におけるクラスタ仮定に基づく特徴選択手法を提案する。
FSCPUは、2進最適化タスクとして特徴選択問題を定式化し、PU学習環境にクラスタ仮定を組み込むよう明示的に設計した。
合成データセットの実験は、様々なデータ条件におけるFSCPUの有効性を示す。
さらに、3つのオープンデータセット上の従来の10のアルゴリズムと比較すると、FSCPUはクラスタの仮定が厳密に保持されていない場合でも、下流の分類タスクにおいて競合性能を達成する。
関連論文リスト
- Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Harnessing Diversity for Important Data Selection in Pretraining Large Language Models [39.89232835928945]
textttQuadは、データの影響を利用して、最先端の事前トレーニング結果を達成することによって、品質と多様性の両方を考慮する。
多様性のために、textttQuadはデータセットを、各クラスタ内の同様のデータインスタンスと、異なるクラスタにわたる多様なインスタンスにクラスタする。
論文 参考訳(メタデータ) (2024-09-25T14:49:29Z) - Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。
この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか?
提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文 参考訳(メタデータ) (2024-09-17T17:25:31Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges [12.248397169100784]
データサブセットの選択は、フルデータセットのトレーニングを近似できる大規模なデータセットの、小さくても情報に富むサブセットを見つけることを目的としている。
難易度スコアに基づいて順序付けされたサンプルから最適なウィンドウサブセットを選択する方法を提案することにより、普遍的で効率的なデータサブセット選択法であるBest Window Selection(BWS)を導入する。
論文 参考訳(メタデータ) (2024-06-05T08:33:09Z) - CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with
Clustered Aggregation and Knowledge DIStilled Regularization [3.3711670942444014]
フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
我々は、実際のデータセットで発見されたクラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに取り組む。
本稿では,クラスタ間の平等を保証するアグリゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-21T02:53:37Z) - Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated
Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。
我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。
特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文 参考訳(メタデータ) (2022-09-30T05:42:56Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - A Supervised Feature Selection Method For Mixed-Type Data using
Density-based Feature Clustering [1.3048920509133808]
本稿では、密度ベース特徴クラスタリング(SFSDFC)を用いた教師付き特徴選択法を提案する。
SFSDFCは、新しい密度に基づくクラスタリング法を用いて、特徴空間を不連続な特徴クラスタの集合に分解する。
そして、これらの特徴クラスタから最小限の冗長性を持つ重要な特徴のサブセットを得るために、効果的な特徴選択戦略を採用する。
論文 参考訳(メタデータ) (2021-11-10T15:05:15Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。