論文の概要: Label-consistent clustering for evolving data
- arxiv url: http://arxiv.org/abs/2512.15210v1
- Date: Wed, 17 Dec 2025 09:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.908946
- Title: Label-consistent clustering for evolving data
- Title(参考訳): 進化するデータのためのラベル一貫性クラスタリング
- Authors: Ameet Gadekar, Aristides Gionis, Thibault Marette,
- Abstract要約: 我々は、上記の問題をクラスタリングの文脈で研究し、特に$k$-centerの問題に焦点を当てた。
定数近似アルゴリズムを2つ提案する。
提案手法の有効性を実世界のデータセットで実証する実験により理論的知見を補完する。
- 参考スコア(独自算出の注目度): 14.91460660469822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data analysis often involves an iterative process, where solutions must be continuously refined in response to new data. Typically, as new data becomes available, an existing solution must be updated to incorporate the latest information. In addition to seeking a high-quality solution for the task at hand, it is also crucial to ensure consistency by minimizing drastic changes from previous solutions. Applying this approach across many iterations, ensures that the solution evolves gradually and smoothly. In this paper, we study the above problem in the context of clustering, specifically focusing on the $k$-center problem. More precisely, we study the following problem: Given a set of points $X$, parameters $k$ and $b$, and a prior clustering solution $H$ for $X$, our goal is to compute a new solution $C$ for $X$, consisting of $k$ centers, which minimizes the clustering cost while introducing at most $b$ changes from $H$. We refer to this problem as label-consistent $k$-center, and we propose two constant-factor approximation algorithms for it. We complement our theoretical findings with an experimental evaluation demonstrating the effectiveness of our methods on real-world datasets.
- Abstract(参考訳): データ分析は、しばしば反復的なプロセスを含み、新しいデータに応答してソリューションを継続的に洗練する必要がある。
通常、新しいデータが利用可能になると、最新の情報を組み込むために既存のソリューションを更新する必要がある。
課題に対する高品質なソリューションを求めることに加えて、以前のソリューションからの劇的な変化を最小限に抑えて一貫性を確保することも重要である。
このアプローチを多くのイテレーションに適用することで、ソリューションが徐々にスムーズに進化することを保証します。
本稿では,クラスタリングの文脈における上記の問題を,特に$k$-center問題に着目して検討する。
より正確には、以下の問題を研究する: 1組のポイント$X$、パラメータ$k$と$b$、および以前のクラスタリングソリューション$H$ for $X$を与えられた場合、我々のゴールは、$k$センターからなる新しいソリューション$C$ for $X$を計算することです。
この問題をラベル一貫性を持つ$k$-centerと呼び、2つの定数近似アルゴリズムを提案する。
提案手法の有効性を実世界のデータセットで実証した実験により理論的知見を補完する。
関連論文リスト
- Data Selection for ERMs [67.57726352698933]
我々は、$mathcalA$が、少なくとも$nll N$のデータポイントで訓練された時に、いかにうまく機能するかを研究する。
結果は,平均推定,線形分類,線形回帰に対する最適データ選択境界を含む。
論文 参考訳(メタデータ) (2025-04-20T11:26:01Z) - Dynamic Consistent $k$-Center Clustering with Optimal Recourse [0.6077284832583713]
我々は、$k$-centerクラスタリング問題において、決定論的定数係数近似を開発することにより、最適リコース境界を許容することを証明する。
当社のインクリメンタルアルゴリズムは,Charikar,Chekuri,Feder,Motwaniによる8ドルの近似アルゴリズムよりも改善されている。
論文 参考訳(メタデータ) (2024-12-04T11:39:03Z) - Fair Clustering for Data Summarization: Improved Approximation Algorithms and Complexity Insights [16.120911591795295]
一部のアプリケーションでは、すべてのデータポイントをセンターとして選択できるが、一般的な設定では、施設またはサプライヤーと呼ばれる一連のポイントからセンターを選択する必要がある。
そこで本研究では,複数のグループから構成されるデータに対して,各グループから最小限のセンタを選択する必要がある,公平な$k$-supplier問題としてモデル化された公平なデータ要約に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-16T18:00:19Z) - On the Necessity of Collaboration for Online Model Selection with Decentralized Data [53.244188985271606]
我々は,100万ドル以上の分散データを用いたオンラインモデル選択について検討し,クライアント間のコラボレーションの必要性について検討する。
i) クライアント上の計算コストが$o(K)$に制限された場合, (ii) クライアント上での計算制約がない場合, (i) 協調は不要であり, (ii) クライアント上での計算コストは$o(K)$に制限される。
論文 参考訳(メタデータ) (2024-04-15T06:32:28Z) - Improved Learning-augmented Algorithms for k-means and k-medians
Clustering [8.04779839951237]
学習強化設定におけるクラスタリングの問題について考察し、そこでは、$d$次元ユークリッド空間のデータセットが与えられる。
本稿では,クラスタリングコストを改良したセンターを生成する決定論的$k$-meansアルゴリズムを提案する。
我々のアルゴリズムは、予測があまり正確でないときでも機能する。つまり、我々の限界は$alpha$を$/2$に保ち、以前の研究で$alpha$よりも1/7$に改善する。
論文 参考訳(メタデータ) (2022-10-31T03:00:11Z) - Local Stochastic Bilevel Optimization with Momentum-Based Variance
Reduction [104.41634756395545]
具体的には、まず、決定論的勾配に基づくアルゴリズムであるFedBiOを提案する。
FedBiOの複雑性は$O(epsilon-1.5)$である。
本アルゴリズムは数値実験において,他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-03T16:40:22Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。