論文の概要: SP$^2$OT: Semantic-Regularized Progressive Partial Optimal Transport for Imbalanced Clustering
- arxiv url: http://arxiv.org/abs/2404.03446v2
- Date: Mon, 30 Jun 2025 15:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.314399
- Title: SP$^2$OT: Semantic-Regularized Progressive Partial Optimal Transport for Imbalanced Clustering
- Title(参考訳): SP$^2$OT:非バランスクラスタリングのためのセマンティック規則化プログレッシブ部分最適輸送
- Authors: Chuyu Zhang, Hui Ren, Xuming He,
- Abstract要約: 本稿では,トランスポートをベースとした新しい擬似ラベル学習フレームワークを提案する。
我々のフレームワークは高品質で不均衡を意識した擬似ラベルを生成する。
CIFAR100を含む様々なデータセットの実験は,本手法の優位性を実証している。
- 参考スコア(独自算出の注目度): 14.880015659013681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep clustering, which learns representation and semantic clustering without labels information, poses a great challenge for deep learning-based approaches. Despite significant progress in recent years, most existing methods focus on uniformly distributed datasets, significantly limiting the practical applicability of their methods. In this paper, we propose a more practical problem setting named deep imbalanced clustering, where the underlying classes exhibit an imbalance distribution. To address this challenge, we introduce a novel optimal transport-based pseudo-label learning framework. Our framework formulates pseudo-label generation as a Semantic-regularized Progressive Partial Optimal Transport (SP$^2$OT) problem, which progressively transports each sample to imbalanced clusters under prior and semantic relation constraints, thus generating high-quality and imbalance-aware pseudo-labels. To solve the SP$^2$OT problem, we propose a projected mirror descent algorithm, which alternates between: (1) computing the gradient of the SP$^2$OT objective, and (2) performing gradient descent with projection via an entropy-regularized progressive partial optimal transport formulation. Furthermore, we formulate the second step as an unbalanced optimal transport problem with augmented constraints and develop an efficient solution based on fast matrix scaling algorithms. Experiments on various datasets, including a human-curated long-tailed CIFAR100, challenging ImageNet-R, and large-scale subsets of fine-grained iNaturalist2018 datasets, demonstrate the superiority of our method. Code is available: https://github.com/rhfeiyang/SPPOT
- Abstract(参考訳): ラベル情報なしで表現とセマンティッククラスタリングを学習するディープクラスタリングは、ディープラーニングベースのアプローチにおいて大きな課題となる。
近年の進歩にもかかわらず、既存のほとんどの手法は均一に分散したデータセットに重点を置いており、それらの手法の実用性を大幅に制限している。
本稿では,より実践的な「深層不均衡クラスタリング」手法を提案する。
この課題に対処するために,我々は,トランスポートをベースとした新しい擬似ラベル学習フレームワークを提案する。
本フレームワークは, 擬似ラベル生成をセマンティック規則化されたプログレッシブ部分最適輸送(SP$^2$OT)問題として定式化し, 先行的および意味的制約下で各サンプルを不均衡クラスタに段階的に輸送することにより, 高品質かつ不均衡な擬似ラベルを生成する。
SP$^2$OT問題の解法として,(1)SP$^2$OT目標の勾配を計算し,(2)エントロピー規則化されたプログレッシブ・プログレッシブ・パーシャル・トランスポートの定式化による射影による勾配降下を行うミラー降下アルゴリズムを提案する。
さらに,2番目のステップを拡張制約付き不均衡な最適輸送問題として定式化し,高速な行列スケーリングアルゴリズムに基づく効率的な解法を開発した。
CIFAR100、ImageNet-R、細粒度iNaturalist2018データセットの大規模サブセットなど、さまざまなデータセットの実験は、我々の方法の優位性を実証している。
コードは、https://github.com/rhfeiyang/SPPOT
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Strong bounds for large-scale Minimum Sum-of-Squares Clustering [0.9831489366502302]
Minimum Sum-of-Squares Clustering (MSSC)は、最も広く使われているクラスタリング手法の1つである。
MSSCは、データポイントとそれに対応するクラスタセントロイド間の合計2乗ユークリッド距離を最小化することを目的としている。
最適性ギャップによるMSSCソリューションの検証手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T13:40:00Z) - P$^2$OT: Progressive Partial Optimal Transport for Deep Imbalanced
Clustering [16.723646401890495]
深層クラスタリングのための新しい擬似ラベル学習フレームワークを提案する。
本フレームワークは,高信頼度サンプルから不均衡を意識した擬似ラベルと学習を生成する。
CIFAR100を含む様々なデータセットの実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2024-01-17T15:15:46Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Information Theoretical Importance Sampling Clustering [18.248246885248733]
多くのクラスタリング手法の現在の仮定は、トレーニングデータと将来のデータが同じ分布から取られるというものである。
我々は,クラスタリング問題(itisC)に対する情報理論的重要度サンプリングに基づくアプローチを提案する。
合成データセットの実験結果と実世界の負荷予測問題により,提案モデルの有効性が検証された。
論文 参考訳(メタデータ) (2023-02-09T03:18:53Z) - A Variance-Reduced Stochastic Gradient Tracking Algorithm for
Decentralized Optimization with Orthogonality Constraints [7.028225540638832]
直交制約付き分散最適化のための新しいアルゴリズムを提案する。
VRSGTは、サンプリングと通信の複雑さを同時に低減する直交制約付き分散最適化のための最初のアルゴリズムである。
数値実験では、VRGTSは現実の自律的なサンプルにおいて有望な性能を持つ。
論文 参考訳(メタデータ) (2022-08-29T14:46:44Z) - Communication-Efficient Robust Federated Learning with Noisy Labels [144.31995882209932]
フェデレーテッド・ラーニング(FL)は、分散した位置データの上で、将来性のあるプライバシ保護機械学習パラダイムである。
FLにおける雑音ラベルの効果を緩和する学習に基づく再重み付け手法を提案する。
提案手法は,複数の実世界のデータセットにおいて,各種ベースラインと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-11T16:21:17Z) - Local Stochastic Bilevel Optimization with Momentum-Based Variance
Reduction [104.41634756395545]
具体的には、まず、決定論的勾配に基づくアルゴリズムであるFedBiOを提案する。
FedBiOの複雑性は$O(epsilon-1.5)$である。
本アルゴリズムは数値実験において,他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-03T16:40:22Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - A Stochastic Alternating Balance $k$-Means Algorithm for Fair Clustering [0.0]
ローン申請や広告などの人間中心の意思決定システムへのデータクラスタリングの適用において、クラスタリングの結果は異なる人口集団の人々に対して差別される可能性がある。
そこで我々は,$k$-meansの更新とグループスワップ更新を併用した,新たな交代バランス型$k$-means (SAKM) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-29T01:47:15Z) - Boosting Data Reduction for the Maximum Weight Independent Set Problem
Using Increasing Transformations [59.84561168501493]
最大重み独立集合問題に対する新しい一般化データ削減および変換規則を導入する。
驚くべきことに、これらのいわゆる増進変換は問題を単純化し、還元空間を開き、アルゴリズムの後にさらに小さな既約グラフが得られる。
提案アルゴリズムは, 1つのインスタンスを除くすべての既約グラフを計算し, 従来よりも多くのインスタンスを最適に解き, 最高の最先端解法よりも最大2桁高速に解き, 解法DynWVCやHILSよりも高品質な解を求める。
論文 参考訳(メタデータ) (2020-08-12T08:52:50Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。