論文の概要: Sketch and shift: a robust decoder for compressive clustering
- arxiv url: http://arxiv.org/abs/2312.09940v1
- Date: Fri, 15 Dec 2023 16:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 14:56:07.389472
- Title: Sketch and shift: a robust decoder for compressive clustering
- Title(参考訳): sketch and shift: 圧縮クラスタリングのためのロバストデコーダ
- Authors: Ayoub Belhadji and R\'emi Gribonval
- Abstract要約: 圧縮学習は、大規模学習のメモリフットプリントを大幅に削減する、新たなアプローチである。
CL-OMPRよりも大幅に改善された代替デコーダを提案する。
提案アルゴリズムは,従来より10倍小さいMNISTデータセットのスケッチからクラスタリング情報を抽出することができる。
- 参考スコア(独自算出の注目度): 6.925686008876193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compressive learning is an emerging approach to drastically reduce the memory
footprint of large-scale learning, by first summarizing a large dataset into a
low-dimensional sketch vector, and then decoding from this sketch the latent
information needed for learning. In light of recent progress on information
preservation guarantees for sketches based on random features, a major
objective is to design easy-to-tune algorithms (called decoders) to robustly
and efficiently extract this information. To address the underlying non-convex
optimization problems, various heuristics have been proposed. In the case of
compressive clustering, the standard heuristic is CL-OMPR, a variant of sliding
Frank-Wolfe. Yet, CL-OMPR is hard to tune, and the examination of its
robustness was overlooked. In this work, we undertake a scrutinized examination
of CL-OMPR to circumvent its limitations. In particular, we show how this
algorithm can fail to recover the clusters even in advantageous scenarios. To
gain insight, we show how the deficiencies of this algorithm can be attributed
to optimization difficulties related to the structure of a correlation function
appearing at core steps of the algorithm. To address these limitations, we
propose an alternative decoder offering substantial improvements over CL-OMPR.
Its design is notably inspired from the mean shift algorithm, a classic
approach to detect the local maxima of kernel density estimators. The proposed
algorithm can extract clustering information from a sketch of the MNIST dataset
that is 10 times smaller than previously.
- Abstract(参考訳): 圧縮学習は,まず大規模なデータセットを低次元のスケッチベクトルに要約し,このスケッチから学習に必要な潜時情報を復号することで,大規模学習のメモリフットプリントを大幅に削減する,新たなアプローチである。
ランダムな特徴に基づくスケッチの情報保存保証の最近の進歩を踏まえて,提案手法(デコーダと呼ばれる)を考案し,ロバストかつ効率的な情報抽出を行うことが目的である。
非凸最適化問題に対処するために、様々なヒューリスティックスが提案されている。
圧縮クラスタリングの場合、標準的なヒューリスティックはcl-ompr(スライディングフランクウルフの変種)である。
しかし、CL-OMPRのチューニングは困難であり、その堅牢性の検討は見落とされた。
本研究では,CL-OMPRを精査し,その限界を回避する。
特に,このアルゴリズムは,有利なシナリオにおいてもクラスタを回復できないことを示す。
このアルゴリズムの欠点は,アルゴリズムのコアステップに現れる相関関数の構造に関連した最適化の難しさに起因すると考えられる。
これらの制限に対処するため、CL-OMPRよりも大幅に改善された代替デコーダを提案する。
その設計は、カーネル密度推定器の局所的な極大を検出する古典的なアプローチである平均シフトアルゴリズムから特にインスパイアされている。
提案アルゴリズムは,従来より10倍小さいMNISTデータセットのスケッチからクラスタリング情報を抽出することができる。
関連論文リスト
- Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Robust Clustering on High-Dimensional Data with Stochastic Quantization [0.0]
本稿では,従来のベクトル量子化アルゴリズムの限界に対処する。
量子化(SQ)を高次元計算の代替として検討する。
論文 参考訳(メタデータ) (2024-09-03T17:13:55Z) - Sparse Attention-Based Neural Networks for Code Classification [15.296053323327312]
コード分類のためのスパース注意型ニューラルネットワーク(SACC)を提案する。
最初のステップでは、ソースコードは構文解析と前処理を行う。
サブツリーの符号化されたシーケンスは、分類のためにスパースアテンション機構を組み込んだTransformerモデルに入力される。
論文 参考訳(メタデータ) (2023-11-11T14:07:12Z) - SALSA-CLRS: A Sparse and Scalable Benchmark for Algorithmic Reasoning [20.706469085872516]
本稿では、CLRSアルゴリズム学習ベンチマークの拡張、スケーラビリティの優先順位付け、スパース表現の利用について紹介する。
我々のアプローチには、オリジナルのCLRSベンチマークからの適応アルゴリズムが含まれており、分散およびランダム化アルゴリズムの新たな問題が導入されている。
論文 参考訳(メタデータ) (2023-09-21T16:57:09Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。