論文の概要: PET-TURTLE: Deep Unsupervised Support Vector Machines for Imbalanced Data Clusters
- arxiv url: http://arxiv.org/abs/2601.03237v1
- Date: Tue, 06 Jan 2026 18:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.0596
- Title: PET-TURTLE: Deep Unsupervised Support Vector Machines for Imbalanced Data Clusters
- Title(参考訳): PET-TURTLE:不均衡データクラスタのための非教師付きサポートベクトルマシン
- Authors: Javier Salazar Cavazos,
- Abstract要約: 本稿では,不均衡なデータ分散を扱うコスト関数を従来法則で一般化したPET-TURTLEを提案する。
PET-TURTLEは、不均衡なソースの精度を改善し、マイノリティクラスタの過剰な予測を防止し、全体的なクラスタリングを強化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation vision, audio, and language models enable zero-shot performance on downstream tasks via their latent representations. Recently, unsupervised learning of data group structure with deep learning methods has gained popularity. TURTLE, a state of the art deep clustering algorithm, uncovers data labeling without supervision by alternating label and hyperplane updates, maximizing the hyperplane margin, in a similar fashion to support vector machines (SVMs). However, TURTLE assumes clusters are balanced; when data is imbalanced, it yields non-ideal hyperplanes that cause higher clustering error. We propose PET-TURTLE, which generalizes the cost function to handle imbalanced data distributions by a power law prior. Additionally, by introducing sparse logits in the labeling process, PET-TURTLE optimizes a simpler search space that in turn improves accuracy for balanced datasets. Experiments on synthetic and real data show that PET-TURTLE improves accuracy for imbalanced sources, prevents over-prediction of minority clusters, and enhances overall clustering.
- Abstract(参考訳): ファンデーションビジョン、オーディオ、言語モデルは、潜在表現を通じて下流タスクでゼロショットのパフォーマンスを可能にする。
近年,深層学習手法を用いたデータグループ構造の教師なし学習が普及している。
最先端のディープクラスタリングアルゴリズムであるTURTLEは、ラベルとハイパープレーンの更新を交互に行い、ベクターマシン(SVM)をサポートするのと同様の方法でハイパープレーンマージンを最大化する。
しかし、TURTLEはクラスタのバランスを前提としており、データが不均衡な場合、非理想超平面となり、クラスタリングエラーがより高くなる。
本稿では,不均衡なデータ分散を扱うコスト関数を従来法則で一般化したPET-TURTLEを提案する。
さらに、ラベル付けプロセスにスパースロジットを導入することで、PET-TURTLEはより単純な検索スペースを最適化し、バランスの取れたデータセットの精度を向上させる。
合成および実データを用いた実験により、PET-TURTLEは不均衡なソースの精度を改善し、マイノリティクラスタの過剰な予測を防止し、全体的なクラスタリングを強化する。
関連論文リスト
- Keep It on a Leash: Controllable Pseudo-label Generation Towards Realistic Long-Tailed Semi-Supervised Learning [88.48555005545694]
ラベル付きデータセットから信頼できる擬似ラベルでラベル付きデータセットを拡張するための制御可能な擬似ラベル生成(CPG)フレームワークを提案する。
CPGは制御可能な自己強化最適化サイクルを介して動作する。
CPGは、最先端のメソッドを最大$textbf15.97%の精度で上回り、一貫した改善を実現している。
論文 参考訳(メタデータ) (2025-10-05T01:52:19Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - ZEUS: Zero-shot Embeddings for Unsupervised Separation of Tabular Data [8.49520972146025]
ZEUSは、追加のトレーニングや微調整なしに新しいデータセットをクラスタリングできる自己完結型モデルである。
複雑なデータセットを意味のあるコンポーネントに分解して動作し、効果的にクラスタ化することができる。
論文 参考訳(メタデータ) (2025-05-15T20:52:26Z) - Conformal-in-the-Loop for Learning with Imbalanced Noisy Data [5.69777817429044]
大規模なデータセットでは、クラス不均衡とラベルノイズが広まっています。
機械学習の研究の多くは、よくラベル付けされたバランスの取れたデータを前提としている。
コンフォーマル・イン・ザ・ループ(Conformal-in-the-Loop, CitL)は,コンフォーマルな予測に基づく手法を用いて,両課題に対処する新しいトレーニングフレームワークである。
論文 参考訳(メタデータ) (2024-11-04T17:09:58Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Class Balancing GAN with a Classifier in the Loop [58.29090045399214]
本稿では,GANを学習するための理論的動機付けクラスバランス正則化器を提案する。
我々の正規化器は、訓練済みの分類器からの知識を利用して、データセット内のすべてのクラスのバランスの取れた学習を確実にします。
複数のデータセットにまたがる既存手法よりも優れた性能を達成し,長期分布の学習表現における正規化器の有用性を実証する。
論文 参考訳(メタデータ) (2021-06-17T11:41:30Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Robust Disentanglement of a Few Factors at a Time [5.156484100374058]
変分オートエンコーダ(VAE)の整合性向上のための人口ベーストレーニング(PBT)を導入する。
PBT-VAEトレーニングでは、教師なしのモデルスコアとしてUnsupervised Disentanglement Ranking (UDR)を使用し、この方法でトレーニングされたモデルが、生成因子のサブセットのみを一貫して切り離す傾向を示す。
複数のデータセットとメトリクスをまたいで、最先端の教師なしのアンハンジメント性能とロバストネスを著しく改善したことを示す。
論文 参考訳(メタデータ) (2020-10-26T12:34:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。