論文の概要: Mostly Beneficial Clustering: Aggregating Data for Operational Decision
Making
- arxiv url: http://arxiv.org/abs/2311.17326v2
- Date: Sun, 17 Dec 2023 09:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:35:53.959764
- Title: Mostly Beneficial Clustering: Aggregating Data for Operational Decision
Making
- Title(参考訳): 最も便利なクラスタリング: 運用決定のための集約データ
- Authors: Chengzhang Li, Zhenkang Peng, and Ying Rong
- Abstract要約: 本稿では,クラスタ構造を利用したShrunken-SAA手法を提案する。
問題の数が増えるにつれて、問題間で与えられたクラスタ構造を活用することで、さらなるメリットが得られます。
提案手法は, 軽度条件下での一般的なコスト関数に拡張することができる。
- 参考スコア(独自算出の注目度): 3.9825334703672812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With increasingly volatile market conditions and rapid product innovations,
operational decision-making for large-scale systems entails solving thousands
of problems with limited data. Data aggregation is proposed to combine the data
across problems to improve the decisions obtained by solving those problems
individually. We propose a novel cluster-based Shrunken-SAA approach that can
exploit the cluster structure among problems when implementing the data
aggregation approaches. We prove that, as the number of problems grows,
leveraging the given cluster structure among problems yields additional
benefits over the data aggregation approaches that neglect such structure. When
the cluster structure is unknown, we show that unveiling the cluster structure,
even at the cost of a few data points, can be beneficial, especially when the
distance between clusters of problems is substantial. Our proposed approach can
be extended to general cost functions under mild conditions. When the number of
problems gets large, the optimality gap of our proposed approach decreases
exponentially in the distance between the clusters. We explore the performance
of the proposed approach through the application of managing newsvendor systems
via numerical experiments. We investigate the impacts of distance metrics
between problem instances on the performance of the cluster-based Shrunken-SAA
approach with synthetic data. We further validate our proposed approach with
real data and highlight the advantages of cluster-based data aggregation,
especially in the small-data large-scale regime, compared to the existing
approaches.
- Abstract(参考訳): 市場の不安定な状況と急速な製品革新により、大規模システムの運用上の意思決定は、限られたデータで数千の問題を解決します。
データアグリゲーションは、これらの問題を個別に解決することで得られる決定を改善するために、問題間でデータを組み合わせるために提案されている。
本稿では,データ集約手法を実装する際に問題のうちクラスタ構造を活用できる,新しいクラスタベースshrunken-saa手法を提案する。
問題の数が増えるにつれて、与えられたクラスタ構造を問題間で活用することで、そのような構造を無視するデータ集約アプローチに対するさらなるメリットが得られます。
クラスタ構造が不明な場合には,いくつかのデータポイントを犠牲にしても,クラスタ構造を明かすことは,特に問題クラスタ間の距離が大きい場合には有益であることを示す。
提案手法は軽度条件下での一般的なコスト関数に拡張することができる。
問題数が大きくなると,クラスタ間距離において,提案手法の最適性ギャップが指数関数的に減少する。
提案手法の性能を,数値実験によるニューズベンダーシステム管理の適用を通して検討する。
クラスタベースShrunken-SAA手法の性能に及ぼす問題インスタンス間の距離測定値の影響を合成データを用いて検討する。
さらに,提案手法を実データで検証し,既存のアプローチと比較して,特に小規模データ大規模システムにおいて,クラスタベースのデータ集約の利点を強調する。
関連論文リスト
- A3S: A General Active Clustering Method with Pairwise Constraints [66.74627463101837]
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、人間のクエリを著しく少なくして、望ましい結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T13:37:03Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Research on Efficient Fuzzy Clustering Method Based on Local Fuzzy
Granular balls [67.33923111887933]
本稿では,データをグラニュラーボールを用いてファジィにイテレーションし,その位置にある2つのグラニュラーボールのみをデータのメンバーシップ度として検討する。
ファジィグラニュラーボールセットは、異なるデータシナリオに直面して、より多くの処理方法を使用することができる。
論文 参考訳(メタデータ) (2023-03-07T01:52:55Z) - Neural Capacitated Clustering [6.155158115218501]
本稿では,クラスタセンターへのポイントの割り当て確率を予測するニューラルネットワークを学習する,容量クラスタリング問題(CCP)の新しい手法を提案する。
人工データと2つの実世界のデータセットに関する実験では、我々のアプローチは文学の最先端の数学的および解法よりも優れています。
論文 参考訳(メタデータ) (2023-02-10T09:33:44Z) - Differentially Private Federated Clustering over Non-IID Data [59.611244450530315]
クラスタリングクラスタ(FedC)問題は、巨大なクライアント上に分散されたラベルなしデータサンプルを、サーバのオーケストレーションの下で有限のクライアントに正確に分割することを目的としている。
本稿では,DP-Fedと呼ばれる差分プライバシー収束手法を用いた新しいFedCアルゴリズムを提案する。
提案するDP-Fedの様々な属性は、プライバシー保護の理論的解析、特に非識別的かつ独立に分散された(非i.d.)データの場合において得られる。
論文 参考訳(メタデータ) (2023-01-03T05:38:43Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - How to Use K-means for Big Data Clustering? [2.1165011830664677]
K-meansはEuclidean Minimum Sum-of-Squares Clustering (MSSC)モデルの下で最もシンプルで広く使われているアルゴリズムである。
ビッグデータクラスタリングにK-means++アルゴリズムとK-means++アルゴリズムを用いる並列方式を提案する。
論文 参考訳(メタデータ) (2022-04-14T08:18:01Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Fast and Interpretable Consensus Clustering via Minipatch Learning [0.0]
IMPACC: Interpretable MiniPatch Adaptive Consensus Clustering を開発した。
我々は、信頼性と計算コストの両面で改善された観測のための適応型サンプリング手法を開発した。
その結果,より正確で解釈可能なクラスタソリューションが得られた。
論文 参考訳(メタデータ) (2021-10-05T22:39:28Z) - ThetA -- fast and robust clustering via a distance parameter [3.0020405188885815]
クラスタリングは機械学習の根本的な問題であり、遠隔ベースのアプローチが数十年にわたってこの分野を支配してきた。
Theta-based Algorithms (ThetA) と呼ばれる新しい距離しきい値法を提案する。
論文 参考訳(メタデータ) (2021-02-13T23:16:33Z) - reval: a Python package to determine best clustering solutions with
stability-based relative clustering validation [1.8129328638036126]
revalは、安定性ベースの相対クラスタリングバリデーションメソッドを活用して、最適なクラスタリングソリューションを決定するPythonパッケージである。
この研究は、教師付き学習を通じて、目に見えないデータのサブセットを複製するものとして、最高のクラスタリングソリューションを選択する安定性ベースの方法の開発を目的としている。
論文 参考訳(メタデータ) (2020-08-27T10:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。