論文の概要: CEREAL: Few-Sample Clustering Evaluation
- arxiv url: http://arxiv.org/abs/2210.00064v1
- Date: Fri, 30 Sep 2022 19:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:10:03.324928
- Title: CEREAL: Few-Sample Clustering Evaluation
- Title(参考訳): CEREAL: サンプルクラスタリングの評価
- Authors: Nihal V. Nayak, Ethan R. Elenberg, Clemens Rosenbaum
- Abstract要約: 限られたラベルでクラスタリング品質を推定する未解決の問題に焦点をあてる。
本稿では,少数のクラスタリング評価のための総合的なフレームワークCEREALを紹介する。
その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。
- 参考スコア(独自算出の注目度): 4.569028973407756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating clustering quality with reliable evaluation metrics like
normalized mutual information (NMI) requires labeled data that can be expensive
to annotate. We focus on the underexplored problem of estimating clustering
quality with limited labels. We adapt existing approaches from the few-sample
model evaluation literature to actively sub-sample, with a learned surrogate
model, the most informative data points for annotation to estimate the
evaluation metric. However, we find that their estimation can be biased and
only relies on the labeled data. To that end, we introduce CEREAL, a
comprehensive framework for few-sample clustering evaluation that extends
active sampling approaches in three key ways. First, we propose novel NMI-based
acquisition functions that account for the distinctive properties of clustering
and uncertainties from a learned surrogate model. Next, we use ideas from
semi-supervised learning and train the surrogate model with both the labeled
and unlabeled data. Finally, we pseudo-label the unlabeled data with the
surrogate model. We run experiments to estimate NMI in an active sampling
pipeline on three datasets across vision and language. Our results show that
CEREAL reduces the area under the absolute error curve by up to 57% compared to
the best sampling baseline. We perform an extensive ablation study to show that
our framework is agnostic to the choice of clustering algorithm and evaluation
metric. We also extend CEREAL from clusterwise annotations to pairwise
annotations. Overall, CEREAL can efficiently evaluate clustering with limited
human annotations.
- Abstract(参考訳): 正規化相互情報(NMI)のような信頼性の高い評価指標でクラスタリングの品質を評価するには、アノテートに費用がかかるラベル付きデータが必要である。
限られたラベルでクラスタリング品質を推定する,未熟な問題に着目する。
提案手法は,いくつかのサンプルモデル評価文献からの既存のアプローチを,学習された代理モデルを用いて積極的にサブサンプルに適応させる。
しかし、それらの推定は偏りがあり、ラベル付きデータにのみ依存することがわかった。
そこで我々は,アクティブサンプリングアプローチを3つの重要な方法で拡張する,少数のサンプルクラスタリング評価のための包括的なフレームワークCEREALを紹介した。
まず,学習した代理モデルからクラスタリングと不確実性を特徴付ける新しいNMIベースの獲得関数を提案する。
次に、半教師付き学習のアイデアを用いて、ラベル付きデータとラベルなしデータの両方で代理モデルを訓練する。
最後に、ラベルのないデータをsurrogateモデルで擬似ラベルします。
視覚と言語にまたがる3つのデータセット上で,NMIをアクティブサンプリングパイプラインで推定する実験を実施している。
その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。
我々は,クラスタリングアルゴリズムと評価指標の選択に依存しないことを示すため,広範なアブレーション研究を行う。
また、CEREALをクラスタワイズアノテーションからペアワイズアノテーションに拡張します。
全体として、CEREALは制限された人間のアノテーションでクラスタリングを効率的に評価できる。
関連論文リスト
- Self Supervised Correlation-based Permutations for Multi-View Clustering [7.972599673048582]
汎用データのためのエンドツーエンドのディープラーニングベースのMVCフレームワークを提案する。
我々のアプローチは、新しい置換に基づく正準相関目標を用いて有意義な融合データ表現を学習することである。
10つのMVCベンチマークデータセットを用いて、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T08:08:30Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - C3: Cross-instance guided Contrastive Clustering [8.953252452851862]
クラスタリングは、事前に定義されたラベルを使わずに、類似したデータサンプルをクラスタに収集するタスクである。
我々は,新しいコントラストクラスタリング手法であるクロスインスタンスガイドコントラストクラスタリング(C3)を提案する。
提案手法は、ベンチマークコンピュータビジョンデータセット上で最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2022-11-14T06:28:07Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Multi-Objective Few-shot Learning for Fair Classification [23.05869193599414]
本稿では,データ内の二次属性に対する予測クラスの相違を緩和する枠組みを提案する。
提案手法は,データから一次クラスラベルを予測することの主目的を学習することに加えて,クラスタメンバシップに対するクラスラベル分布の差異を最小限に抑えるためにクラスタリングをベースとした多目的関数を学習することを含む。
論文 参考訳(メタデータ) (2021-10-05T11:28:58Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。