論文の概要: False clustering rate in mixture models
- arxiv url: http://arxiv.org/abs/2203.02597v1
- Date: Fri, 4 Mar 2022 22:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 18:43:00.192091
- Title: False clustering rate in mixture models
- Title(参考訳): 混合モデルにおける偽クラスタリング速度
- Authors: Ariane Marandon, Tabea Rebafka, Etienne Roquain, Nataliya Sokolovska
- Abstract要約: クラスタリングタスクは、サンプルメンバーにラベルを配信することで構成される。
ほとんどのデータセットでは、いくつかの個人はあいまいで、本質的に1つまたは他のクラスタに帰属することが難しい。
ここでの考え方は、小さな誤分類率を得るためにサンプルの一部だけを分類することである。
乳がんデータへの応用は、実際的な観点から、新しいアプローチの利点を示している。
- 参考スコア(独自算出の注目度): 1.4961945931969969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The clustering task consists in delivering labels to the members of a sample.
For most data sets, some individuals are ambiguous and intrinsically difficult
to attribute to one or another cluster. However, in practical applications,
misclassifying individuals is potentially disastrous. To overcome this
difficulty, the idea followed here is to classify only a part of the sample in
order to obtain a small misclassification rate. This approach is well known in
the supervised setting, and referred to as classification with an abstention
option. The purpose of this paper is to revisit this approach in an
unsupervised mixture-model framework. The problem is formalized in terms of
controlling the false clustering rate (FCR) below a prescribed level {\alpha},
while maximizing the number of classified items. New procedures are introduced
and their behavior is shown to be close to the optimal one by establishing
theoretical results and conducting numerical experiments. An application to
breast cancer data illustrates the benefits of the new approach from a
practical viewpoint.
- Abstract(参考訳): クラスタリングタスクは、サンプルメンバーにラベルを配信することで構成される。
ほとんどのデータセットでは、いくつかの個人は曖昧で、あるクラスタに属性を付けるのが本質的に難しい。
しかし、実際的な応用では、個人を誤分類することは破滅的な可能性がある。
この難しさを克服するために、以下のアイデアはサンプルの一部だけを分類し、小さな誤分類率を得るというものである。
このアプローチは教師付き設定でよく知られており、棄却オプション付き分類 (classification with a abstention option) と呼ばれる。
本論文の目的は、このアプローチを教師なし混合モデルフレームワークで再検討することである。
この問題は、分類項目の数を最大化しながら、所定のレベル {\alpha} 以下の偽クラスタリング率(fcr)を制御するという観点で定式化される。
理論的な結果を確立し, 数値実験を行うことにより, 新しい手法を導入し, その挙動が最適手法に近いことを示した。
乳がんデータへの応用は、実用的な観点から新しいアプローチの利点を示している。
関連論文リスト
- Adaptive Margin Global Classifier for Exemplar-Free Class-Incremental Learning [3.4069627091757178]
既存の手法は主にバイアス学習を扱うことに焦点を当てている。
本研究では,データ不均衡やサンプリングといった既存手法のバイアス要因を回避するために,分散ベースグローバル(DBGC)を導入する。
さらに重要なのは、古いクラスの妥協された分布は、単純な操作、分散(VE)によってシミュレートされることだ。
この損失は、Adaptive Margin Softmax Cross Entropy (AMarX)と等価であることが証明されている。
論文 参考訳(メタデータ) (2024-09-20T07:07:23Z) - Robust Non-adaptive Group Testing under Errors in Group Membership Specifications [3.554868356768806]
グループテスト(GT)は、$n p$ group'でテストを実行することで欠陥状態を決定することを目的としており、$p$サンプルのサブセットを混合してグループを形成する。
しかし、既存の方法の多くは、グループメンバーシップが正確に指定されていると仮定している。
本稿では,グループメンバシップ仕様の誤りを処理できる新しいGT法であるDebiased Robust Lasso Test Method (DRLT) を提案する。
論文 参考訳(メタデータ) (2024-09-09T06:03:23Z) - A Universal Unbiased Method for Classification from Aggregate
Observations [115.20235020903992]
本稿では,任意の損失に対する分類リスクを非バイアスで推定するCFAOの普遍的手法を提案する。
提案手法は,非バイアスリスク推定器によるリスクの整合性を保証するだけでなく,任意の損失に対応できる。
論文 参考訳(メタデータ) (2023-06-20T07:22:01Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Self-Adaptive Label Augmentation for Semi-supervised Few-shot
Classification [121.63992191386502]
Few-shotの分類は、ラベル付きサンプルがわずかにあれば、新しいタスクをうまく一般化できるモデルを学ぶことを目的としている。
そこで本研究では,手動で定義した指標を用いて,ラベルのない各サンプルに適切なラベルを割り当てる半教師付き小ショット分類手法を提案する。
SALAの目新しいところは、タスク適応計量であり、エンドツーエンドの方法で異なるタスクに対するメトリックを適応的に学習することができる。
論文 参考訳(メタデータ) (2022-06-16T13:14:03Z) - Hybrid Dynamic Contrast and Probability Distillation for Unsupervised
Person Re-Id [109.1730454118532]
非監督的人物再識別(Re-Id)は、リードワールドビデオ監視システムにおける実践的応用により注目されている。
本稿では,ハイブリッド動的クラスタコントラストと確率蒸留アルゴリズムを提案する。
教師なしRe-Id問題を局所-言語的ダイナミックコントラスト学習と自己教師付き確率蒸留の枠組みに統合する。
論文 参考訳(メタデータ) (2021-09-29T02:56:45Z) - Does Adversarial Oversampling Help us? [10.210871872870737]
本稿では,データセットのクラス不均衡を処理するために,3人のプレイヤーによるゲームベースのエンドツーエンド手法を提案する。
本稿では,敵対的マイノリティ・オーバーサンプリングではなく,敵対的オーバーサンプリング (AO) とデータ空間・オーバーサンプリング (DO) のアプローチを提案する。
提案手法の有効性を高次元・高不均衡・大規模マルチクラスデータセットを用いて検証した。
論文 参考訳(メタデータ) (2021-08-20T05:43:17Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Progressive Cluster Purification for Unsupervised Feature Learning [48.87365358296371]
教師なしの特徴学習では、サンプル特異性に基づく手法はクラス間の情報を無視する。
本稿では,プログレッシブクラスタ形成時にクラス不整合サンプルを除外するクラスタリングに基づく新しい手法を提案する。
我々の手法は、プログレッシブ・クラスタ・パーフィケーション(PCP)と呼ばれ、訓練中に徐々にクラスタ数を減らし、プログレッシブ・クラスタリングを実装している。
論文 参考訳(メタデータ) (2020-07-06T08:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。